相関係数で見える事と見えない事

相関性は、いろいろな場面で決定的な意味を持ちますが、注意点があります。「この相関は、何を意味しているのか？」、というチェックは大事です。

このチェックによって、相関だと思っていたものが、間違いだとわかることもあります。しかし、それに気付く事によって、解析が次の段階に進むこともあります。

ちなみに、このページは量的変数の相関性の話になっています。質的データの相関性というのもあります。

直線性

相関係数で見ているのは、直線性です。「直線性が強いから、何かの関係があるかもしれない。」とは言えますが、「何かの関係があるから、直線性が強い。」とは言えません。

つまり、何かの関係があっても、相関係数による評価だけでは、見逃す可能性があります。

統計学で「相関がある」という時は、データが直線状に並ぶかどうかの話をしています。

一般的な言い方では、「相関がある」は、「因果関係がある」という意味で使うこともあるので、この違いには注意が必要です。

因果関係があっても、相関がない例としては、直線性のない場合や、質的変数の場合があります。

詳しくは、擬似相関のページにありますが、擬似相関は、相関があっても、因果関係がない例のひとつです。

擬似相関を使ったデータ分析は、疑似相関のあるデータには、直線性があることを積極的に使います。

相関係数が±１に近い状態は、２つの変数の増減のタイミングが一致した時のデータだけを、サンプリングした時にも起こります。本来、無関係であるのに、相関があるように見えてしまいます。

このケースの場合は、「普段は相関していないものが、相関している時とは、どういう時なのだろう？」、と言った感じで調査を進めると、問題解決の糸口になることがあります。

詳しくは、相関の検定のページにありますが、サンプル数が少ない時は、相関係数が大きかったとしても、「直線的な関係がある」という結論は、保留した方が良いです。