トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

データ全体の差の検定

平均値の差の検定 のページにありますが、平均値の差の検定のp値は、平均値の差の有無だけを調べたい時の尺度になっています。

ところで、筆者の経験の範囲では、平均値の差の検定をする実務上の場面で、「平均値の差の有無だけを調べたい」ということは思い当たりません。 知りたいのは、「分布がずれていると言えるのか?」、「ずれは、どのくらいか?」ということなのですが、 それを知るための手段として、平均値の差の検定を使っているのが実状です。

そこで筆者が知りたいことを調べるための直接的な手段として考案したのが、このページで「データ全体の差の検定」と筆者が名付けた方法になります。 (世の中には、既に同じ方法があるかもしれないですが、筆者の知る限りではなさそうです。 もしあれば、名前はそちらに合わせるつもりです。)

2つ考えてみました。 以下の解説では、この番号で書いています。

データ全体の差の検定

上記の2つの方法には、共通した特徴があります。

平均値の差と、p値の関係

平均値の差と、p値の関係が下の図です。 Type1が平均値の差の効果量の検定で、 Type2が差による分布の重なりの検定です。

Type1は、片側検定の時のP値です。

いずれも標準偏差が1の正規分布で計算しているので、横軸は、コーエンのdのような効果量と、ほぼ同じ値になります。上記の2つの方法の場合が比較できるようにしてあります。 いずれも、差が大きければ大きいほど、0に近付くので、 平均値の差の検定 のp値と似た性質を持っていることがわかります。
test of diffence of distribution

Type2の方が、カーブが緩やかです。 Type2の場合、平均値の差が1、つまり、標準偏差とちょうど同じ時は、p値は、0.6より少し高いくらいです。 「60%くらいが共通している」ということを表しています。

サンプル数の影響

データ全体の差の検定は、分布を近似する時に、「本当にこの分布で良いのか?」という検討が必要ですが、 分布が決まった後は、サンプル数の影響を受けない方法になっています。

p値が限りなく0に近くなる、という現象は起きないです。



参考文献

分布の差の検定」 weblio辞書
https://www.weblio.jp/content/分布の差の検定
「分布の差の検定は、 独立性の検定 と実質的に同じ」と書かれています。 つまり、ここではクロス集計表にある頻度のデータについて、「差はあるのか」と調べる方法が、「分布の差の検定」という名前になっています。
このページの名前は、「分布の差の検定」との混乱を避けるために、「データ全体の差の検定」という名前にしています。




順路 次は 平均値の差の効果量の検定

データサイエンス教室