トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

比率分布の違いの検定

「2つの比率に違いあると言えるのか」ということを調べるための方法として、一般的には 比率の差の検定 がよく知られています。

この検定で、例えば「30/100」と「33/100」は、p値が0.76となって、「差はない」という結論になります。 また、「300000/10000000」と「303000/10000000」だと、p値が0.0000038となって、「差がある」となります。 比率の差がどんなに小さくても、サンプル数が多ければ、「有意な差がある」となる手法になっています。

そのため、2つの比率の数値があって、それを厳密に「違いがあるか」と調べる方法にはなっているのですが、 「2つの比率の差がどれくらい起きやすいのか?」ということを調べる方法にはなっていません。 平均値の差の検定 に対して正規分布の差の検定があり、 分散の比の検定に対して 正規分布のばらつきの違いの検定 があるのと同じ位置付けの手法として、 比率の差の検定 に対して筆者が考案したのが、このページの「比率分布の違いの検定」です。

2つ考えてみました。 いずれも正規分布の差の検定の2つと似ています。

比率分布の違いの検定1(正規分布の差の検定1と類似)

平均値の差の検定の計算で使われている統計量は、ざっくり見ると、以下の形になっています。
平均値の差/(標準偏差/サンプル数nの平方根)

正規分布の差の検定1では、それを以下のようにします。
平均値の差/標準偏差

比率分布の違いの検定1も、これと同じ考え方をします。

具体的な計算方法

EXCELの場合、例えば、A2とB2というセルに2つの比率が入力されている場合、下の式でp値が求まります。最後の「*2」というのは、両側検定なことから来ています。
=(1-NORMDIST(ABS(A2-B2),0,SQRT(A2*(1-A2)+B2*(1-B2)),TRUE))*2

計算結果

正規分布の差の検定 は、横軸を効果量にするか、同じ意味ですが、標準偏差を1に固定して、横軸を平均値の差にすれば、p値を縦軸にしたグラフで表せます。 正規分布のばらつきの違いの検定 は、横軸を標準偏差の比にすれば、p値を縦軸にしたグラフで表せます。

比率分布の違いは、効果量や比のような良い尺度がないので、一本の曲線で表すことができないです。 比率の値は0から1までと範囲が決まっている特徴があるので、この特徴を活かしてp値のグラフを作ると下のグラフになります。
test of diffence of ratio

2つの比率が同じだと、p値が1になり、差が広がるほど、p値が低くなる様子がわかります。

比率分布の違いの検定2(正規分布の差の検定2と類似)

比率分布の違いの検定2の考え方は、正規分布の差の検定2と同じなのですが、比率分布の考え方がポイントです。

比率分布とは

test of diffence of ratio
比率分布というのは、上のグラフのようなものです。

比率を計算するための元データは、例えば、「0が90個、1が10個」といった0と1だけのデータです。 この場合、1の比率は0.1となりますが、これが上のグラフの「0.1」の部分を表します。

このグラフは、グラフの帯の幅を「1」と考えると、面積が「1」となり、確率密度関数として使えます。 確率密度関数は、一般的に山型の分布で表しますが、比率の場合、元のデータが0と1しかないため、このようなグラフで確率密度関数が表せます。

なお、比率分布のこのような表し方は、筆者が考案したものです。 既に世の中にあるかもしれませんが、筆者は見たことがありません。 もしあれば、このページの内容は、それに合わせるつもりです。

比率分布の違いのp値の考え方

test of diffence of ratio
比率分布の違いの検定2では、p値の考え方が、基本的に正規分布の差の検定2と同じです。 2つの分布の共通部分の面積をp値とみなします。

2つの比率が、r2とr1で、r2の方が大きい場合、p値は以下の式になります。
p value = r2 + (1 - r1)

具体的な計算方法

EXCELの場合、例えば、A2とB2というセルに2つの比率が入力されている場合、下の式でp値が求まります。
=1+MIN(A2:B2)-MAX(A2:B2)

計算結果

test of diffence of ratio
方法2の場合は、方法1と少し違います。



順路 次は 21世紀の検定

Tweet データサイエンス教室