トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

平均値の差の効果量の検定

平均値の差の効果量の検定は、 データ全体の差の検定 の一種です。

基本的な考え方

平均値の差の検定の計算で使われている統計量は、ざっくり見ると、以下の形になっています。
平均値の差/(標準偏差/サンプル数nの平方根)

これを以下のようにします。
平均値の差/標準偏差

分母にあった標準誤差が標準偏差に変わっただけですが、これによって元のデータの範囲に対して、平均値の差がどの程度になるのかを判定できる方法になります。

名前の由来

平均値の差/標準偏差
という量は、平均値の差の検定で、効果量と呼ばれているものと同じです。 そこで、筆者は、「平均値の差の効果量の検定」という名前にしました。

標準偏差の計算

上の式で、「標準偏差」と書いてあるところは、2つの分布の標準偏差をひとつにまとめたものです。

似た式がいくつか考案されているようですが、基本的に 平均値の差の検定で使われているものと同じです。

P値の計算

平均値の差/標準偏差
は、 標準化 と同じ作業をしています。

上記の量が、標準正規分布の横軸の値に対応するので、標準正規分布の確率の計算からP値を出せます。

よって、例えば、上記の計算値が3の場合は、「3シグマだから、起こる確率は0.1%以下」といった、考察ができるようになります。

P値の具体的な計算方法

平均値の差の検定を使う実際のテーマでは、「平均値に差があるか?」ではなく、「対策の結果、平均値の差は、上がったか?(下がったか?)」という場合が多いので、以下は、片側検定の場合にしてあります。 両側検定の場合は、片側検定の時の値を2倍します。

D1、N1、N2、S1、S2のセルにそれぞれ値を書いておき、任意のセルに下記の関数をコピーするのが、一番簡単な使い方です。

EXCELの場合、例えば、差がd1の場合、下の式でp値が求まります。
=1 - NORM.DIST(d1,0, sqrt((n1*s1^2+n2*s2^2)/(n1+n2)),TRUE)

または、
=1 - NORM.DIST(d1/sqrt((n1*s1^2+n2*s2^2)/(n1+n2)),0,1,TRUE)

sqrt((n1*s1^2+n2*s2^2)/(n1+n2))
の部分は、効果量として知られている、コーエンのdの分母と同じです。n1とn2がサンプル数、Var1とVar2が分散です。

変形版

上記は、 z検定 を元にしています。

平均値の差の検定と同じようにするのなら、t検定になります。

効果量の信頼区間

効果量の信頼区間 は、下記の参考文献にコーエンのdの効果量の信頼区間が紹介されています。

参考文献とは違うのですが、まず、平均値の差の検定では、平均値の差の信頼区間が下記の式になっています。 95% t値というのは、サンプル数で変わりますが、約2です。

そのため、効果量の信頼区間は、下記の式でも良いような気がしています。

効果量の信頼区間(下側)の、具体的な計算方法

下記は、下側の求め方ですが、上側でも同様です。

EXCELの場合、例えば、差が2の場合、下の式で効果量の信頼区間(下側)が求まります。
= 2 / sqrt((n1*Var1+n2*Var2)/(n1+n2)) - 1.96*sqrt(1/n1 + 1/n2)

P値の信頼区間

P値の信頼区間 は、効果量の信頼区間の上側と下側の値を、P値の計算式に入れて計算すれば良さそうです。

P値の信頼区間(上側)の、具体的な計算方法

P値は、小さければ小さいほど、期待される量なので、判断ミスの防止として必要として知りたいのは、 P値の信頼区間の上側になります。 下記は、上側の求め方ですが、下側でも同様です。

EXCELの場合、例えば、差が2の場合、下の式でp値の信頼区間(上側)が求まります。
=1 - NORM.DIST(2/sqrt((n1*Var1+n2*Var2)/(n1+n2)) - 1.96*sqrt(1/n1 + 1/n2),0,1,TRUE)

ちなみに、P値の信頼区間の上側には、効果量の信頼区間の下側を使うので、「 - 1.96」という部分になっています。



21世紀の検定のP値の信頼区間

参考

統計検定手法の改革...その3: 効果量, 信頼区間」 西井淳 2016
コーエンのdと、その信頼区間の紹介があります。
https://bcl.sci.yamaguchi-u.ac.jp/~jun/post/160605-effectsize/




順路 次は 差による分布の重なりの検定

データサイエンス教室