平均値の差の検定 に対して平均値の差の検定のo値があり、 分散の比の検定に対して 分散の比の検定のo値 があるのと同じ位置付けの手法として、 比率の差の検定 に対して筆者が考案したのが、このページの「比率の差の検定のo値」です。
比率の差と、o値の関係が下の図です。 データをランダムに発生させて、計算したものです。 2つのグループのサンプル数は、いずれも50個ずつで固定です。
いずれも差が0に近ければ0に近く、差が1に近ければ0に近いです。
p1とp2が、0.2と0.3の時と、0.5と0.6の時では、比率の差は、いずれも0.1ですが、 o値Aとo値Cについては、少しo値が異なります。 そのため、p1-p2が同じでも、p1とp2の違いによって、少しばらつきがあります。
上の表で、緑色の部分の式は、教科書にのっているくらい有名な式です。
黄色の部分は、既存の式を眺めつつ、やりたいことができるための式を、筆者がアナロジーで出してみたものです。
EXCELの場合、例えば、p1、p2という2つの比率があり、それぞれのサンプル数がn1とn2の場合、下の式でo値が求まります。
=(1-NORMDIST(ABS(p1-p2)*sqrt(1/n1+1/n2)/(SQRT((p1*(1-p1)/n1 + p2*(1-p2)/n2))), 0 , 1,TRUE)) *2
上の表のそれぞれの計算式を、EXCELの計算式として入れています。 NORMDIST関数の最初の引数には、検定統計量が入ります。 2番目の引数は、平均値の差が0かどうかが基準になるので、0です。 3番目の引数は、標準偏差が入ります。
o値の信頼区間は、統計量の信頼区間の上側と下側の値を、o値の計算式に入れます。
o値の計算の、ABS(p1-p2)の部分に、信頼区間の下側の式を入れます。
EXCELの場合、下の式でo値の信頼区間(上側)が求まります。
=(1-NORMDIST(ABS(p1-p2) - 1.96*(SQRT((p1*(1-p1)/n1 + p2*(1-p2)/n2)))*sqrt(1/n1+1/n2)/(SQRT((p1*(1-p1)/n1 + p2*(1-p2)/n2))), 0 , 1,TRUE)) *2
平均値の差の検定のo値B と基本的に同じです。 説明変数と目的変数を、いずれも0と1の2値にすることで、相関係数を求めます。
=1- R1^2
比率分布というのは、上のグラフのようなものです。
比率を計算するための元データは、例えば、「0が90個、1が10個」といった0と1だけのデータです。 この場合、1の比率は0.1となりますが、これが上のグラフの「0.1」の部分を表します。
このグラフは、グラフの帯の幅を「1」と考えると、面積が「1」となり、確率密度関数として使えます。 確率密度関数は、一般的に山型の分布で表しますが、比率の場合、元のデータが0と1しかないため、このようなグラフで確率密度関数が表せます。
なお、比率分布のこのような表し方は、筆者が考案したものです。 既に世の中にあるかもしれませんが、筆者は見たことがありません。 もしあれば、このページの内容は、それに合わせるつもりです。
比率の差の検定のo値Bでは、o値の考え方が、基本的に平均値の差の検定のo値Bと同じです。
2つの分布の共通部分の面積をo値とみなします。
2つの比率が、p2とp1で、p2の方が大きい場合、o値は以下の式になります。
o value = p2 + (1 - p1)
EXCELの場合、例えば、p1とp2というセルに2つの比率が入力されている場合、下の式でo値が求まります。
=1+MIN(p1:p2)-MAX(p1:p2)
順路
次は
相関係数の検定のo値