トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

相関の検定

検定 は、 相関係数 にもあります。

相関の検定の使い道

ここでは、p値が0.05(有意水準5%)を目安として、それよりも大きいか、小さいかを見ることにしています。

p値が大きい時の使い道

correlation
上の図は、サンプル数が5個です。 相関係数は0.815で、散布図を見ると、だいたい一直線上に並んでいます。

このような時に、「相関がある!」とすぐに結論を出さずに、「相関があるのかもしれないけれど、断定するのは危ないかも」、という判断をする時に、p値は、0.093で0.05より大きいというのは参考になります。

このように、相関係数がある程度大きくても、用心深く考えたい時に、p値は参考になります。

p値が小さい時の注意

サンプル数が1000個で、相関係数が0.1の時の散布図が下になります。
correlation

この図を見て、「XとYには、何か意味のある関係がある」とは思う人はいないと思いますが、「p値が小さいというのは、何か意味がある時」という理解をしていると、「何か意味があるのでは?」と思えてしまいます。

つまり、「p値がとても小さいので、相関係数が小さいけれども、何か意味のある関係がある」、という使い方はできないです。

p値とサンプル数の関係

下の図は、サンプル数によって、p値がどのように変わるのかを表しています。
correlation

サンプル数が1000個の場合、相関係数が0.1のような時でもp値はかなり小さいことがわかります。



参考文献

無相関の検定―相関係数の有意性を検定する」 BellCurve
https://bellcurve.jp/statistics/blog/14324.html

エクセルを使ってp値を出す計算式があります。



順路 次は 相関行列と内積

Tweet データサイエンス教室