平均値の差の検定 は、文字通り「平均値の差」を調べる方法です。
平均値の分布の違いを調べることで、「平均値が同じと言えるか?」という点を調べる方法になっています。
平均値の差の検定で、サンプル数が多いほど、p値が小さくなる現象について、「問題だ」という解釈がありますが、 平均値の差だけを調べる方法としては、このp値による判断は間違いではないです。
一般的に、平均値の差の検定を使う場面で、平均値の差だけを調べたいということは、(筆者の知る限りでは)ないです。 そもそも平均値の差を見ることが目的でもなく、 平均値の差の検定を使う場面では、「データ全体に差があるのか?」ということを調べようとしています。 それを調べるために、便宜的に平均値の差を見ています。
従来の使い方の問題点は、平均値の差だけを調べる方法を、 データ全体の差を調べる方法として使っていることにあります。
データ全体の差を調べる時は、平均値の差の数値だけでなく、平均値と元のデータの分布との関係をセットにして判断する必要があるのですが、 平均値の差の検定のp値は、それを調べられる尺度にはなっていません。
ややこしいポイントのひとつですが、サンプル数が3〜10くらいのスモールデータなら、 データ全体について、差の有無を調べる方法として、平均値の差の検定が使えます。 この話の検証は、 スモールデータの検定の効果量 にあります。
データ全体の差の評価に、平均値の差の検定を使う時は、手段と目的が合っていません。 目的に手段を合わせるのなら、筆者としては データ全体の差の検定 の方が良いように考えています。
「対策の前後の変化では、平均値の差の検定で検証する」という理解は、おそらく、2024年の時点で一番定着しています。
それが常識のようになっている組織の発表会などで、「このテーマで平均値の差の検定を使うのは、不適切です」と、言い始めると、本来やるべきことが後回しになりかねません。
学会や会社などによっては、手順がある程度決まっていることがあるので、直近の先例を参考にするのが得策と思います。 ガイドラインがある分野もあります。
以下は、そのような先例がない場合の手順や注意点です。
P値が0.05以上の場合は、スモールデータかどうかに関わらず、調査としては不備があるので、仮説を主張しない方が良いです。
ギリギリ0.05以下の場合も気を付けた方が良いです。
平均値の差の検定をして、p値が0.05よりも大きければ、「平均値に差があるとは言えない」という説明になるのは、従来の一般的な解釈と同じです。
スモールデータの検定の効果量 のページにあるように、nが小さくて、p値が0.05よりも小さいような時は、データ全体に差がある状態になっています。 p値が0.05以下になった場合、nが小さい場合は、効果量は大きいので、「データ全体の差がある」と考えて進めても、実用上の問題は起きにくいです。
効果量は、平均値の差を、標準偏差で割った量です。 平均値の差が、データ全体のばらつきに対して、どのくらいの割合になっているのかを調べられます。
nが大きい場合は、データ全体の差があるかどうかについて、p値だけでは何とも言えません。 統計学的な尺度では、効果量が、「データ全体の差があるか?」という分析で役に立ちます。
ただし、効果量を登場させると、それはそれで、新たな混乱を起こして、本来やるべきことから離れてしまうかもしれません。
検定を使うような状況では、グラフでは明確に分かれないという不安要素を、統計学の力で定量的に補強する目的のことがあります。
グラフを出すと、明確に分かれていないので、「この程度の、違いは違いではない」と言われやすくなるリスクがあります。
ただ、現実には、そのあたりの不確実性も踏まえて、対策を打つ方が、リスク管理がしやすいです。
差の意味で検定を補強 することは、数値的な議論による混乱を避けるのに良いです。
順路
次は
差の意味で検定を補強