トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

相関係数で見える事と見えない事

相関性 は、いろいろな場面で決定的な意味を持ちますが、注意点があります。 「この相関は、何を意味しているのか?」、というチェックは大事です。

このチェックによって、相関だと思っていたものが、間違いだとわかることもあります。 しかし、それに気付く事によって、解析が次の段階に進むこともあります。

ちなみに、このページは量的変数の相関性の話になっています。 質的データの相関性 というのもあります。

直線性

相関係数で見ているのは、直線性です。 「直線性が強いから、何かの関係があるかもしれない。」とは言えますが、 「何かの関係があるから、直線性が強い。」とは言えません。

つまり、何かの関係があっても、相関係数による評価だけでは、見逃す可能性があります。

相関関係と因果関係の違い

統計学 で「相関がある」という時は、データが直線状に並ぶかどうかの話をしています。

一般的な言い方では、「相関がある」は、「因果関係がある」という意味で使うこともあるので、 この違いには注意が必要です。

因果関係があっても、相関がない例としては、直線性のない場合や、質的変数の場合があります。

擬似相関

詳しくは、 擬似相関 のページにありますが、擬似相関は、相関があっても、因果関係がない例のひとつです。

擬似相関を使ったデータ分析 は、疑似相関のあるデータには、直線性があることを積極的に使います。

サンプリング

サンプリングした期間の影響

相関係数が±1に近い状態は、2つの変数の増減のタイミングが一致した時のデータだけを、 サンプリング した時にも起こります。 本来、無関係であるのに、相関があるように見えてしまいます。

このケースの場合は、 「普段は相関していないものが、相関している時とは、どういう時なのだろう?」、 と言った感じで調査を進めると、問題解決の糸口になることがあります。

サンプル数と結論の関係

詳しくは、 相関の検定 のページにありますが、サンプル数が少ない時は、相関係数が大きかったとしても、「直線的な関係がある」という結論は、保留した方が良いです。



順路 次は 擬似相関

Tweet データサイエンス教室