相関性 は、いろいろな場面で決定的な意味を持ちますが、注意点があります。 「この相関は、何を意味しているのか?」、というチェックは大事です。
このチェックによって、相関だと思っていたものが、間違いだとわかることもあります。 しかし、それに気付く事によって、解析が次の段階に進むこともあります。
ちなみに、このページは量的変数の相関性の話になっています。 質的なデータの相関性 というのもあります。
実際のデータ解析で使うデータは、必ずしも等間隔ではなく、 データの密集している部分や希薄な部分があったり、分布があります。 Excel等で試してみるとわかりますが、 相関係数は、分布の外側のプロットの影響が大きいです。
入力間違い等の 外れ値 によって、相関係数が±1に近くなってしまうことはあり得ます。 そのため、「相関がある。」という結論を出す場合は、 散布図 を描いてみるなりして、妥当なデータを使用しているかのチェックが必要です。
相関係数が±1に近い状態は、2つの変数の増減のタイミングが一致した時のデータだけを、 サンプリング した時にも起こります。 本来、無関係であるのに、相関があるように見えてしまいます。
このケースの場合は、 「普段は相関していないものが、相関している時とは、どういう時なのだろう?」、 と言った感じで調査を進めると、問題解決の糸口になることがあります。
例えば、小学生の身長と、覚えている漢字の数の相関性は高いはずですが、 この結果を元にして、 「漢字をたくさん覚えれば、身長が伸びる。」とか、 「身長が伸びれば、漢字をたくさん覚えられる。」、という結論を出す方はいないと思います。 この場合は、「年齢と身長には相関があるし、年齢と漢字の数には相関があるだろうから、 身長と漢字の数にも相関があるように見えるのだろう。」、という理由が考えられます。
この例のような相関を「擬似相関」や「擬相関」と言います。
擬似相関の確認は、すごく難しいです。 第3の変数をデータで持っていれば、少しは調べようがありますが、 それでも、XとYに因果関係があるのかどうかは、統計学の知識だけではわかりません。
深刻なのは、第3の変数も含めた3つの変数の関係が、わかっていない場合です。 身長と漢字と年齢の関係を例にしてみましたが、 この場合は、「第3の変数は年齢」だと、常識で判断できます。 しかし、高度な技術や、未知の現象の話になってくると、どれが第3の変数なのかは、データだけでは見当が付きません。
第3の変数のデータを持っていない事もあります。 一番深刻なのは、第3の変数のデータがないだけでなく、それが何かもわかっていないケースですが、こうしたケースが一番多いかもしれません。
擬似相関の関係になっている2つの変数について、共通している事を考察すると、それらの変数が増減する理由がわかる事があります。 因果関係をデータ解析で調べたい時には、擬似相関はこんな風に利用します。 擬似相関は、解析の段階を次に進める突破口になる事があります。
擬似相関を考慮した相関係数として、 偏相関係数 が考案されています。
相関係数で見ているのは、直線性です。 「直線性が強いから、関係性が強い。」とは言えますが、 「関係性が強いから、直線性が強い。」とは言えません。
つまり、関係性があっても、相関係数による評価だけでは、見逃す可能性があります。
統計学 で「相関がある」という時は、データが直線状に並ぶかどうかの話をしています。
一般的な言い方では、「相関がある」は、「密接な関係がある」という意味で使いますので、 この違いには注意が必要です。 つまり、統計学的には相関があっても、密接な関係があるとは言い切れないです。
擬似相関は、相関があっても、密接な関係がない例のひとつです。 密接な関係があっても、相関がない例としては、直線性のない場合や、質的変数の場合があります。
順路
次は
擬似相関の応用技