トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

サンプル毎の差の検定

サンプル毎の差の検定は、以下のような位置付けです。

手順

対応のある検定 の復習になります。 対応のある検定 は、 平均値の差の検定 の一種で、下のようなデータがあった時に、AとBという2つのグループの、それぞれの平均値に差があるかを調べます。 その時に、データの各行は対応があるとします。 例えば、「各行は同一人物のデータ」といった場合です。
distribution gap

対応のある検定 では、「B-A」というように、各行の差を計算します。
distribution gap

ここまでは、 対応のある検定 と同じです。

この後、 対応のある検定 では、 平均値の検定 をします。 BがAよりも大きければ、B-Aは0よりも大きくなるはずなので、 「B-Aの平均値は、0よりも大きいと言えるか?」という問題として扱います。

サンプル毎の差の検定は、平均値の検定ではなく、 シフトの検定 を使います。 「B-Aの分布は、0に対してどうなっているのか?」という問題として扱います。

実施例

対応のある検定 のページに、対応のある平均値の差の検定ではBが高いとは言えるけれども、全体的にはBが高いとは言えない例があります。 下図のような場合です。
対応のある場合の2つの平均値の差の検定

この例で、シフトの検定の、2つの方法を使うと下記になります。
シフトの効果量の検定のP値 = 0.47
シフトの効果量の検定の、効果量 = 0.086
比率のシフトの検定のP値 = 0.43

対応のある検定 のページでは、グラフの見た目だけで、「全体的にはBが高いとは言えない」と説明していますが、定量的にはこのようになります。

対応のある検定 だけだと、「Bの方が有意に高い!対策は効果がある!」となりがちですが、 これらの分析もすると、「4割以上でAの方が低くなる」と言ったことも、定量的に示せるようになります。

何かのテーマとして、この分析を使う場合、最終的な結論は、B-Aの平均値、B-Aの範囲も踏まえて出した方が良いかと思います。




順路 次は データ全体の差の検定

データサイエンス教室