トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

比率の差の検定のo値

平均値の差の検定 に対して平均値の差の検定のo値があり、 分散の比の検定に対して 分散の比の検定のo値 があるのと同じ位置付けの手法として、 比率の差の検定 に対して筆者が考案したのが、このページの「比率の差の検定のo値」です。

計算方法の違い

比率の差と、o値の関係が下の図です。 データをランダムに発生させて、計算したものです。 2つのグループのサンプル数は、いずれも50個ずつで固定です。

いずれも差が0に近ければ0に近く、差が1に近ければ0に近いです。
test of diffence of distribution

p1とp2が、0.2と0.3の時と、0.5と0.6の時では、比率の差は、いずれも0.1ですが、 o値Aとo値Cについては、少しo値が異なります。 そのため、p1-p2が同じでも、p1とp2の違いによって、少しばらつきがあります。

o値A(z検定の応用)


上の表で、緑色の部分の式は、教科書にのっているくらい有名な式です。

黄色の部分は、既存の式を眺めつつ、やりたいことができるための式を、筆者がアナロジーで出してみたものです。

o値Aの具体的な計算

EXCELの場合、例えば、p1、p2という2つの比率があり、それぞれのサンプル数がn1とn2の場合、下の式でo値が求まります。
=(1-NORMDIST(ABS(p1-p2)*sqrt(1/n1+1/n2)/(SQRT((p1*(1-p1)/n1 + p2*(1-p2)/n2))), 0 , 1,TRUE)) *2

上の表のそれぞれの計算式を、EXCELの計算式として入れています。 NORMDIST関数の最初の引数には、検定統計量が入ります。 2番目の引数は、平均値の差が0かどうかが基準になるので、0です。 3番目の引数は、標準偏差が入ります。

o値の信頼区間

o値の信頼区間は、統計量の信頼区間の上側と下側の値を、o値の計算式に入れます。

o値の計算の、ABS(p1-p2)の部分に、信頼区間の下側の式を入れます。

EXCELの場合、下の式でo値の信頼区間(上側)が求まります。
=(1-NORMDIST(ABS(p1-p2) - 1.96*(SQRT((p1*(1-p1)/n1 + p2*(1-p2)/n2)))*sqrt(1/n1+1/n2)/(SQRT((p1*(1-p1)/n1 + p2*(1-p2)/n2))), 0 , 1,TRUE)) *2

o値B(寄与率の応用)

平均値の差の検定のo値B と基本的に同じです。 説明変数と目的変数を、いずれも0と1の2値にすることで、相関係数を求めます。

o値

=1- R1^2

o値C(2つの分布から計算)

比率分布とは

test of diffence of ratio
比率分布というのは、上のグラフのようなものです。

比率を計算するための元データは、例えば、「0が90個、1が10個」といった0と1だけのデータです。 この場合、1の比率は0.1となりますが、これが上のグラフの「0.1」の部分を表します。

このグラフは、グラフの帯の幅を「1」と考えると、面積が「1」となり、確率密度関数として使えます。 確率密度関数は、一般的に山型の分布で表しますが、比率の場合、元のデータが0と1しかないため、このようなグラフで確率密度関数が表せます。

なお、比率分布のこのような表し方は、筆者が考案したものです。 既に世の中にあるかもしれませんが、筆者は見たことがありません。 もしあれば、このページの内容は、それに合わせるつもりです。

比率分布の違いのo値の考え方

test of diffence of ratio
比率の差の検定のo値Bでは、o値の考え方が、基本的に平均値の差の検定のo値Bと同じです。 2つの分布の共通部分の面積をo値とみなします。

2つの比率が、p2とp1で、p2の方が大きい場合、o値は以下の式になります。
o value = p2 + (1 - p1)

具体的な計算方法

EXCELの場合、例えば、p1とp2というセルに2つの比率が入力されている場合、下の式でo値が求まります。
=1+MIN(p1:p2)-MAX(p1:p2)



順路 次は 相関係数の検定のo値

データサイエンス教室