トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

差による分布の重なりの検定

差による分布の重なりの検定は、 データ全体の差の検定 の一種です。

p値の考え方

差による分布の重なりの検定は、実際のデータに対して、統計学的な分布で近似して計算する点や、p値(確率)を計算する点は、統計学的な 検定 の方法と同じです。

また、判別の正誤の割合で判定する点は、 判別分析 のような ラベル分類 の方法と同じです。

test of diffence of distribution
標準偏差が0の正規分布が2つあって、平均値が2ずれている場合が上の図です。 正規分布の差の検定2では、赤くした部分の面積を、p値と考えます。

確率密度関数を使うメリット

差による分布の重なりの検定では、実際のデータで作ったヒストグラムについて、2つの分布の重なり合っている部分を計算するのではなく、 実際のデータから作った確率密度関数で分布を近似して計算します。

こうすることで、2つの分布のサンプル数が大きく違っていても影響がないですし、データが少ない時に起きるデータの粗さの影響を小さくできます。

具体的な計算方法

EXCELの場合、例えば、差が2の場合、下の式でp値が求まります。
=NORM.DIST(-1,0,1,TRUE)*2

「-1,0,1」という数字ですが、 -1の「1」は、「差が2の半分」から決まっています。0は平均値が0の分布であることを表し、一番右の1は、標準偏差が1という意味です。

具体的な計算方法2(等分散ではない場合)

等分散ではない場合、つまり標準偏差が異なる場合は、 EXCELで簡単に求める式は作れないので、 数値積分をするしかないようです。 計算の仕方としては、短冊のY方向の長さは、 それぞれの位置で2つの分布の確率密度関数を計算して、 小さい方を採用することで求まります。



順路 次は 平方和分析

データサイエンス教室