トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

多変量データの相関分析

「どんなデータを扱っているのか?」、「 多重共線性 はどうなっているのか?」、といった事のチェックとして、 全ての変数の組み合わせについて、相関分析が役に立ちます。

相関行列

たくさんの変数の組み合わせについて、とりあえず片っ端からチェックする方法として、 相関係数 を表にしてまとめる方法があります。 この表は相関行列と呼ばれます。

相関行列は、 多変量解析 のいろいろな手法の中間的な計算で、よく使われています。

グラフィカルモデリング

相関行列には、負の値がありますが、それは正にして、ある値よりも小さい場合は0とみなす事にすれば、相関関係をネットワークのグラフで表現できるようになります。 相関行列で数字の羅列を眺めるよりも、グラフにした方がわかりやすい事があります。

こういったアプローチは、「グラフィカルモデリング」と呼ばれます。 ちなみに、このページのグラフィカルモデリングは、辺が相関係数で、頂点が変数名です。 グラフィカルモデリングでは、辺(エッジ)と頂点(ノード)を何にするのかで、様々な事を表現できます。 ネットワークの書き方と描き方 が参考になります。
グラフィカルラッソ

ソフト

Rによる変数の類似度の分析 のページには、相関係数のグラフィカルモデリングをRでする時のコードがあります。

偏相関行列とグラフィカルラッソ

擬似相関 を知っていると、 相関係数を使う相関行列の代わりに、 偏相関行列 を使いたくなります。

しかし、偏相関行列の計算には弱点があるので、実務向きではありません。 実務的には相関係数の方がロバストな解析になり、便利です。

グラフィカルラッソ は、 スパースモデリング の考えを取り入れたグラフィカルモデリングの一種です。 グラフィカルラッソなら、 偏相関行列の分析でやりたいたいと思っていたことができます。



多対多の分析

手法の使い分け


順路 次は 偏相関係数

Tweet データサイエンス教室