分散比とp値とサンプル数の関係 のページにあるように、分散の比の検定で、「ばらつきの差がある」という結果が出るのは、 ばらつきが極端に違う時か、サンプル数が非常に多い時です。
例えば、下のグラフの場合は、2つのグループがそれぞれサンプル数が5ずつです。
ばらつきがかなり違うように見えますが、p値は0.059です。
一般的な判定基準だと、「ばらつきに違いがあるとは言えない」となります。
また、下のグラフの場合は、2つのグループがそれぞれサンプル数が10000ずつです。
ばらつきがないように見えますが、p値は0.000000000000000000015です。
一般的な判定基準だと、「ばらつきに違いがある!!!」となります。
「ばらつきの違いは、分散の比の検定で調べる」というのが定説ですが、その定説の改善案がこのページになります。
上記では、分散の比の検定を使う時の困りごとを2つ書いています。 1つ目の、サンプル数がある程度多くないと、実務で出て来るようなばらつきの違いについて、判断できないのは、 不偏分散 のページにあるように、分散という尺度自体の性質です。
2つ目の、サンプル数が多いとp値が小さな値になりやすい性質は、 平均値の差の検定 で似たようなことが起きる理由と、原因が同じです。目的と手段が合っていないことが原因です。
分散の比の検定は、純粋に分散の数字の違いの有無だけを見るような手段になっているのですが、 一般にばらつきの違いを調べたい時は、数字の違いというより、ばらつき方の違いなので、この点が合っていません。
正規分布のばらつきの違いの検定は、分布のばらつき方の違いを調べる方法として、筆者が考案した方法です。 (世の中で、既に同じアイディアがあれば、ご存知の方は、ご教示いただけると幸いです。)
考え方は、 正規分布の差の検定2 と似ています。 正規分布の差の検定 は、 平均値の差の検定 の代替手段として考案されていますが、 正規分布のばらつきの違いの検定は、 分散の比の検定の代替手段として考案されています。
標準偏差のばらつきについては、特に心配しなくて良いくらいサンプル数が多い場合(目安としては30以上)に使える方法です。
正規分布のばらつきの違いの検定のp値は、下のグラフの赤い部分です。
2つの分布が重なっている部分の面積になります。
計算すると、下のグラフになります。
グラフの横軸は、2つの分布の標準偏差の比です。
2つの標準偏差が違うほど、小さな値になっています。
良く見る部分を拡大すると、下のグラフになります。
このp値は、一般的な検定のように、0.05を目安にするものではないです。 例えば、横軸が3の時に、p値は0.5くらいになりますが、「0.5(50%)もずれているから、2つのばらつきは違う、と考えられる」といった使い方になります。
2つの分布が重なっている部分の面積ですが、まずは、確率密度関数の曲線の交点xを求めます。
確率密度関数の式に代入すると、下の式になります。
これを整理するとxの式が求まります。
A2、B2というセルに2つの標準偏差が入力されている場合、EXCELでこのxを求める関数は、下記になります。
=-SQRT(2*B2^2*A2^2/(B2^2-A2^2)*LN(B2/A2))
上記のxを求める関数がD2というセルに書かれている場合、EXCELでp値を求める関数は、下記になります。
=2*(0.5-NORMDIST(D2,0,MAX(A2:B2),TRUE)+NORMDIST(D2,0,MIN(A2:B2),TRUE))
ここで、最初の「2*」という部分は、左側半分の面積だけを求めた式を2倍することを表しています。 「0.5」というのは、正規分布の左側半分の面積は、0.5なことを表しています。 MAX、MINというのは、2つの標準偏差の大小関係を間違えると、この式でp値が求まらないので使っています。 この関数だと、標準偏差がまったく同じ場合は、エラーになります。
順路
次は
比率の差の検定