トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

主成分分析における、主成分と相関性の関係

主成分分析における、相関行列と共分散行列の違い のページでは、共分散行列を使う場合の話がありますが、このページは、相関行列を使う場合だけです。

相関性のある変数の組合せがある場合

下のデータを例にします。 A、B、C、Dとなっている変数では、その変数同士で、相関が高く、散布図にするとプロットが直線状に並んでいます。 A、B、C、D、Eのグループ間では、相関がまったくありません。 PCA

上のデータを主成分分析した結果が、下になります。 各主成分と相関が高ければ、線で結ばれるようになっています。
PCA

各グループが、それぞれ1つの主成分と結び付いています。

5つのグループが、5つの主成分で表現できるようになります。 元は、15変数あったのが、5変数に要約できました。

相関性のない変数同士の場合

下のデータでは、7つの変数がありますが、それぞれの間にまったく相関がありません。
PCA

上のデータを主成分分析すると、下のグラフになります。
PCA

元の変数と、主成分が、多対多の関係になっています。

要約できない場合は、元の変数1個について、主成分が1個対応するような結果の方が、使い勝手が良いのですが、そうはならないです。

主成分分析の使い道

上記のように、主成分分析には、要約の機能があります。 実務のデータでは、変数同士に高い相関があることがあり、それが、考察を難しくするため、要約の機能は役に立ちます。

一方、要約できない場合に、変数1個と主成分1個が対応せず、多対多の関係になってしまうのは、扱いにくい性質です。

因果関係の分析では、1対1になってくれると考察がしやすいです。 1対1にする方法としては、 因子分析独立成分分析 があります。

ただし、 因子分析独立成分分析 でも、1対1にはならない場合があったり、 因子分析 にはエラーが出やすい特徴があります。 そのため、これらの3つの方法は、場合によって使い分けると良いようです。 (分解分析の違い

主成分分析の直接的な改善としては、 しきい値主成分分析 があります。



参考文献

図解でわかる多変量解析」 涌井良幸・涌井貞美 著 日本実業出版社 2001
相関行列を使う時と、共分散行列を使う時の違い多、絵も豊富に使いながら、丁寧に解説されています。


順路 次は カーネル主成分分析と一般化主成分分析

Tweet データサイエンス教室