トップページ | Q&Aの一覧 | このサイトについて | ENGLISH

「相関あり」になる相関係数は、いくつ以上ですか?

相関係数 の目安として、「0.7」や「0.8」という数字を示している文献があります。

筆者も「目安」という言い方で説明しますが、この説明だと、どっちつかずな結論になるので、実務で相関係数を使う人にとっては、不便です。

「0.7」や「0.8」は最初の目安として、強い目安、普通の目安、弱い目安を使い分けると良いと思います。

強い目安

目安の使い分けですが、「0.95以上」だったら、シンプルに「相関あり」という結論にして問題ないことが多いです。 0.95まで行かなくても、0.9以上くらいで、かつ、サンプル数が30個以上くらいなら、この進め方で行ける場合が多いです。

普通の目安

0.9以下の場合は、「相関係数はいくつか?」、「グラフはどうなっているか?」、「サンプル数はいくつか?」という事をセットにしないと、結論は出せないです。

0.7や0.8という目安は、こうした分析を進めるかどうかの判断の目安です。

目安は、意味とセットで考える

相関係数 のページでは、0.7や0.8という相関係数を寄与率に換算するといくつになるのかを示していますが、これは結論を考える時の参考になります。

目安は、サンプル数とセットで考える

21世紀の検定のサンプル数 のページに、相関係数の効果量の検定の目安がありますが、これを使います。

100個くらいあるのなら、相関係数として求めた数字の精度が高いです。 そのため、例えば、相関係数が0.7なら、「不明な要因が50%くらいあるが、50%については、この変数で説明できる」といった結論の出し方ができます。

弱い目安

21世紀の検定のサンプル数 のページには、相関係数が0.5の場合も示してあります。

相関係数が0.5では、寄与率が0.25で、未知の要因の割合が0.75もあることになります。

未知の部分の影響が予測しにくいので、一般的には、「これらの変数には、何らかの関係がある」といった進め方はしない方が良いです。

しかし、順位データなど、測定が粗いデータを使っている場合は、話が変わって来ます。 未知の要因の0.75のうち、0.3くらいは、測定の粗さが要因になっていると考えられるためです。



データサイエンス教室