トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

サンプルの関係からの主成分分析

非線形のための主成分分析 にあるように、 主成分分析は、変数同士の内積から、共分散行列を計算します。 共分散行列の 固有値分析 で、主成分を求めます。 共分散行列は、 変数の類似度の分析 に使うものです。

また、同じページにあるように、サンプル同士の内積で行列を作って、その固有値分析をしても、共分散行列の固有値分析と同じ結果になります。

サンプルの関係からの、変数の類似度の分析

共分散行列は、変数の関係を表したデータなので、それを使って、主成分という新しい変数を作り、主成分を見て分析を進めることは、自然な感じがします。

一方で、サンプル同士の内積から作ったデータからでも、同じ分析ができるのは不思議な感じがします。

サンプル同士の関係を表したデータは、 サンプルの類似度の分析 に進む方が、自然な感じです。

なお、サンプルの類似度の指標は、 距離 が一般的ですが、主成分分析に進む時に使うのは内積です。

ただ、 カーネル主成分分析の種類 にあるように、内積の代わりに、距離を変形したものを代わりに使うアイディアが、カーネル主成分分析にはあります。

内積の分布とカーネルの分布 は、これらの違いを調べてみたものです。

多次元尺度構成法

多次元尺度構成法 には種類がありますが、基本的なアルゴリズムの場合、距離行列を内積に変換して、その後は、普通の 主成分分析 とまったく同じ手順になっています。

つまり、サンプルの関係からの変数の類似度の分析は、このような形で古くからあります。

低次元の高次元化

変数が3個の場合の、共分散行列は、3行3列です。 固有値は、3つ求まります。 固有値の数に、サンプル数は関係ありません。

一方、サンプル数が100の場合、内積の行列は100行100列です。 固有値は、最大で100個も求まります。 固有値の数に、変数の数は関係ありません。

普通の主成分分析では、変数の数よりも主成分が多くなることはないのですが、 カーネル主成分分析は、変数の数よりも主成分の数が多くなるような仕組みになっています。 見方を変えれば、「低次元が高次元に変換される」というものになっています。




順路 次は スパース主成分分析

データサイエンス教室