「2つの比率に違いあると言えるのか」ということを調べるための方法として、一般的には 比率の差の検定 がよく知られています。
この検定で、例えば「30/100」と「33/100」は、p値が0.76となって、「差はない」という結論になります。 また、「300000/10000000」と「303000/10000000」だと、p値が0.0000038となって、「差がある」となります。 比率の差がどんなに小さくても、サンプル数が多ければ、「有意な差がある」となる手法になっています。
そのため、2つの比率の数値があって、それを厳密に「違いがあるか」と調べる方法にはなっているのですが、 「2つの比率の差がどれくらい起きやすいのか?」ということを調べる方法にはなっていません。 平均値の差の検定 に対して正規分布の差の検定があり、 分散の比の検定に対して 正規分布のばらつきの違いの検定 があるのと同じ位置付けの手法として、 比率の差の検定 に対して筆者が考案したのが、このページの「比率分布の違いの検定」です。
2つ考えてみました。 いずれも正規分布の差の検定の2つと似ています。
平均値の差の検定の計算で使われている統計量は、ざっくり見ると、以下の形になっています。
平均値の差/(標準偏差/サンプル数nの平方根)
正規分布の差の検定1では、それを以下のようにします。
平均値の差/標準偏差
比率分布の違いの検定1も、これと同じ考え方をします。
EXCELの場合、例えば、A2とB2というセルに2つの比率が入力されている場合、下の式でp値が求まります。最後の「*2」というのは、両側検定なことから来ています。
=(1-NORMDIST(ABS(A2-B2),0,SQRT(A2*(1-A2)+B2*(1-B2)),TRUE))*2
正規分布の差の検定 は、横軸を効果量にするか、同じ意味ですが、標準偏差を1に固定して、横軸を平均値の差にすれば、p値を縦軸にしたグラフで表せます。 正規分布のばらつきの違いの検定 は、横軸を標準偏差の比にすれば、p値を縦軸にしたグラフで表せます。
比率分布の違いは、効果量や比のような良い尺度がないので、一本の曲線で表すことができないです。
比率の値は0から1までと範囲が決まっている特徴があるので、この特徴を活かしてp値のグラフを作ると下のグラフになります。
2つの比率が同じだと、p値が1になり、差が広がるほど、p値が低くなる様子がわかります。
比率分布の違いの検定2の考え方は、正規分布の差の検定2と同じなのですが、比率分布の考え方がポイントです。
比率分布というのは、上のグラフのようなものです。
比率を計算するための元データは、例えば、「0が90個、1が10個」といった0と1だけのデータです。 この場合、1の比率は0.1となりますが、これが上のグラフの「0.1」の部分を表します。
このグラフは、グラフの帯の幅を「1」と考えると、面積が「1」となり、確率密度関数として使えます。 確率密度関数は、一般的に山型の分布で表しますが、比率の場合、元のデータが0と1しかないため、このようなグラフで確率密度関数が表せます。
なお、比率分布のこのような表し方は、筆者が考案したものです。 既に世の中にあるかもしれませんが、筆者は見たことがありません。 もしあれば、このページの内容は、それに合わせるつもりです。
比率分布の違いの検定2では、p値の考え方が、基本的に正規分布の差の検定2と同じです。
2つの分布の共通部分の面積をp値とみなします。
2つの比率が、r2とr1で、r2の方が大きい場合、p値は以下の式になります。
p value = r2 + (1 - r1)
EXCELの場合、例えば、A2とB2というセルに2つの比率が入力されている場合、下の式でp値が求まります。
=1+MIN(A2:B2)-MAX(A2:B2)
方法2の場合は、方法1と少し違います。
順路
次は
21世紀の検定