サンプルの関係からの主成分分析

非線形のための主成分分析にあるように、主成分分析は、変数同士の内積から、共分散行列を計算します。共分散行列の固有値分析で、主成分を求めます。共分散行列は、変数の類似度の分析に使うものです。

また、同じページにあるように、サンプル同士の内積で行列を作って、その固有値分析をしても、共分散行列の固有値分析と同じ結果になります。

サンプルの関係からの、変数の類似度の分析

共分散行列は、変数の関係を表したデータなので、それを使って、主成分という新しい変数を作り、主成分を見て分析を進めることは、自然な感じがします。

一方で、サンプル同士の内積から作ったデータからでも、同じ分析ができるのは不思議な感じがします。

サンプル同士の関係を表したデータは、サンプルの類似度の分析に進む方が、自然な感じです。

なお、サンプルの類似度の指標は、距離が一般的ですが、主成分分析に進む時に使うのは内積です。

ただ、カーネル主成分分析の種類にあるように、内積の代わりに、距離を変形したものを代わりに使うアイディアが、カーネル主成分分析にはあります。

内積の分布とカーネルの分布は、これらの違いを調べてみたものです。

多次元尺度構成法には種類がありますが、基本的なアルゴリズムの場合、距離行列を内積に変換して、その後は、普通の主成分分析とまったく同じ手順になっています。

つまり、サンプルの関係からの変数の類似度の分析は、このような形で古くからあります。

変数が３個の場合の、共分散行列は、３行３列です。固有値は、３つ求まります。固有値の数に、サンプル数は関係ありません。

一方、サンプル数が100の場合、内積の行列は100行100列です。固有値は、最大で100個も求まります。固有値の数に、変数の数は関係ありません。

普通の主成分分析では、変数の数よりも主成分が多くなることはないのですが、カーネル主成分分析は、変数の数よりも主成分の数が多くなるような仕組みになっています。見方を変えれば、「低次元が高次元に変換される」というものになっています。