トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

相関係数の効果量の検定

相関係数については、相関係数の数値的な確かさの調査が、従来からある 相関係数の検定 になります。

相関係数の検定 でP値が低いということは、「相関係数の精度が高い」という意味です。 そのため、 相関係数の検定 のP値は、相関の高さとは無関係な指標です。

例えば、相関があるとは言えない場合でも、 相関係数の検定 のP値が、限りなく0に近くなることがあります。 よって、相関があるかないかという指標として、 相関係数の検定 のP値は使えないです。

一般的な研究では、相関がどのくらい確からしいのかを確率の指標で評価したいことが多いと思います。 さらには、その指標の確からしさもわかると、なお良いです。

相関係数の効果量の検定は、そのような指標としてP値を使う方法です。

なお、相関性を寄与率にして確率的に評価する方法は、昔からあります。 しかし、この指標を「検定」として考える発想は、従来はないと思いますので、「古くて新しい方法」と言えそうです。

相関性の効果量

相関係数は、相関性の 効果量 の一種として分類されています。

相関係数の検定との違い

相関係数の効果量の検定は、 相関係数の検定 と同じ部分と、まったく違う部分があります。整理すると、下記になるようです。

z検定法は、 平均値の差の効果量の検定 と同様で、検定統計量を変形することで定式化しています。 なお、ここでは、(n-2)の部分を取ることで、定式化しています。 これによって、nに依存しない検定統計量になっていますが、単純に(n-2)を取るのではない方が、もしかしたら良いのかもしれません。

寄与率法は、相関係数には、2乗すると寄与率という確率になる特徴が、もともとあるので、そこから定式化しています。

評価指標の計算(z検定法)

相関係数の効果量の検定が、上の式で定式化できるとすれば、各種の評価指標のEXCEL関数は、以下のようにして求まるはずです。

以下のEXCELの計算式では、以下のようになっています。
R1 : 相関係数
n1 : サンプル数

任意のセルに、評価指標の計算式をコピーして、R1、N1のセルにこれらの数字を書いておくのが、一番簡単な使い方です。

効果量Rの信頼区間(下側)

効果量の信頼区間です。

= ( EXP(LN( (1+R1)/(1-R1) ) -2*1.96/SQRT(n1-3) ) -1) / ( EXP(LN( (1+R1)/(1-R1) ) -2*1.96/SQRT(n1-3) ) +1)

P値(無相関の確率)

=1 - NORM.DIST(R1/SQRT(1-R1^2),0, 1,TRUE)

P値の信頼区間(上側)(無相関の確率の精度)

P値の信頼区間です。

=1 - NORM.DIST((( EXP(LN( (1+R1)/(1-R1) ) -2*1.96/SQRT(n1-3) ) -1) / ( EXP(LN( (1+R1)/(1-R1) ) -2*1.96/SQRT(n1-3) ) +1))/SQRT(1-(( EXP(LN( (1+R1)/(1-R1) ) -2*1.96/SQRT(n1-3) ) -1) / ( EXP(LN( (1+R1)/(1-R1) ) -2*1.96/SQRT(n1-3) ) +1))^2),0, 1,TRUE)

評価指標の計算(寄与率法)

効果量Rの信頼区間(下側)

効果量の信頼区間です。 これは、z検定法と共通です。

= ( EXP(LN( (1+R1)/(1-R1) ) -2*1.96/SQRT(n1-3) ) -1) / ( EXP(LN( (1+R1)/(1-R1) ) -2*1.96/SQRT(n1-3) ) +1)

P値(無相関の確率)

=1- R1^2

P値の信頼区間(上側)(無相関の確率の精度)

P値の信頼区間です。

=1-( ( EXP(LN( (1+R1)/(1-R1) ) -2*1.96/SQRT(n1-3) ) -1) / ( EXP(LN( (1+R1)/(1-R1) ) -2*1.96/SQRT(n1-3) ) +1) )^2

P値(無相関の確率)の考え方

上の式の場合、相関係数Rが0.9だと、P値は、0.19(= 1- 0.9^0.9)になります。

相関係数が0.9というのは、かなり高い相関です。 一方、「P値は0.05を目安にして判定する」という従来の感覚だと、「相関がない」という判断になります。

この0.19というのは、「完全な直線上で相関する場合に対して、未知の要因が0.19(19%)ある」という意味になります。 「未知の部分が19%しかない」と解釈すれば、「かなり高い相関」という意味になります。

そのため、0.05という基準は、ここでは使えません。 なお、これは、 21世紀の検定 全般に共通します。

P値の比較

2つの方法は、P値の考え方が違うので、Rが0の時に、2倍違います。 Rが1に近付くと、0に近付く点は、共通しています。



参考文献

26-3. 相関係数」  BellCurbe 統計WEB
相関係数の信頼区間は、このサイトを参考にさせていただきました。
https://bellcurve.jp/statistics/course/9591.html?srsltid=AfmBOooI8DcFdnGNYGJ0lRux7v-MC64V-RZLTI4JSynm0g6M6IGnEOfB



順路 次は ノンパラメトリック検定

データサイエンス教室