検定 は、科学的な研究の評価や、 意思決定 で、とても強力な方法になります。
ただ、この方法には、2024年の時点でも、世の中で様々な理解をされています。
このページでは、様々な判断の方法を整理しました。
なお、このページは、筆者の私見です。 一番適切、と筆者が考えている理解の仕方をまとめたものです。
2003年頃、「P値が0.05(5%)より高いか低いかで判断すれば良い。判断を間違えた場合にリスクが高い場合は、0.01で判断すれば良い」と、筆者は会社で教わりました。
この0.05や0.01は、「有意水準」と呼ばれていました。
この方法は、筆者のいた会社に限らず、世の中全体で定説だったようです。2024年の時点も、この方法で判断する人は多いようです。
この方法は、統計学の事をよく知らなくても、とにかくソフトにデータを入れればできます。 また、0.05より大きいか小さいかだけの話なので、迷う余地がないです。 この簡単さと、わかりやすさによって、多くの人がデータを活用していくための方法として、広まったようです。
ちなみに、P値による判断の方法は、 第1種と第2種の誤り や 多重性の問題 という問題の原因になっています。
P値の問題点としては、「P値の意味や性質を正しく理解していない」、というのが定説のようです。
しかし、筆者としては、「目的と手段が合っていない」というのが本当の問題点と考えています。 つまり、例えば、「2つのグループの差を見たい」という目的と、「平均値の差の検定」を手段にするという関係の問題です。
平均値の差の検定で調べられるのは、文字通り「平均値の差」です。 平均値の差の検定が使われるテーマでは、平均値の差を調べるのは、便宜的なことで、実際は、2つのグループ全体で差があるかを見たいことが多いと思うのですが、平均値の値の差の検定で調べられるのは、平均値の差だけです。 数字として、2つの平均値に違いがあると言えるのかだけを調べる理論になっています。
データのばらつきに、どの位の重なりがあるのかは、調べることができません。
信頼区間や確信区間も、平均値の差だけを調べる方法である点は、同じになっています。
2つの平均値に違いがあると言えるのかだけを調べたいのであれば、 P値0.05、信頼区間、確信区間と言った方法は、正しい方法と思います。
「サンプルサイズや検出力を事前に検討してから計算したP値なら、判断に使うことができる」という説があります。
この方法だと、例えば、1000個のデータが既にあるのに、「10個のデータだけで判断しましょう」となることもあり、不可解な流れになります。 また、このような時は、多重性の問題も起きます。
「P値だけで判断してはいけない」という理解が広まって来た中で、提案されているのは、信頼区間による方法です。
信頼区間を計算すると、例えば、平均値の差の検定なら、P値が0.05になる時の平均値の差と、実際の平均値の差がわかります。
P値だけを見るよりは、扱っている現象の具体的な内容を見る方法になっています。 ただ、信頼区間を出すのに計算するものと、P値を出すのに計算するものは、同じものなので、P値の計算が持っている問題点は、この方法にもあります。
信頼区間による方法への対策として説明されることがあるのが、 確信区間 を使う方法です。 ベイズ統計学 を基盤にしています。
この方法は、近年のコンピュータの発達によって実用的になった背景があり、 「新しい方法」という位置付けになっています。 しかし、サンプル数が多い時の性質は、信頼区間と同様のため、対策になりきれていないようです。
1次元散布図、ヒストグラム、箱ひげ図 などを使って、データを実際に見ます。
外れ値、等でP値が大きく変わる可能性があるので、グラフによる判断は、P値による方法の補助的な手段として使われることもあります。
効果量による判断は、平均値の差の具体的な値と、データのばらつきの関係を見ます。
効果量を使うと、「2つのグループ全体で差があるか」を見ることができます。
21世紀の検定 は、「従来の方法は、目的と手段が合っていないことが多い」という点に着目して、目的に合う手段として考案した方法です。
「目的と手段が合っている」という点では、 効果量を使った判断と同じなのですが、P値を出すことによって、確率的な議論ができるようにしているところが違います。
「目的と手段が合っているP値」、「従来からの誤用が起きないP値」、「正しいP値」として使うことができます。
また、効果量の目安は、平均値の差の検定の場合しか開発されていないようですが、 21世紀の検定 は、平均値の差の検定以外についても、開発されています。
「目的と手段の一致」という点では、従来から、 「データの中心値の違いを見たいのか」、「ばらつきの違いを見たいのか」と言った評価対象の違いや、 「パラメトリックか、ノンパラメトリックか」、「2群か、3群以上か」といった違いによって、検定の方法は使い分けられています。
21世紀の検定 は、従来からの方法を否定するものではなく、従来からの方法のリストに、新たに加わる位置付けの方法です。
検定することのできる評価対象を増やしています。
筆者としては、21世紀の検定が一番良いと思っているのですが、世の中で認められている方法ではありません。
実務目的で、平均値の差の検定をするのであれば、世の中で認められている方法でないと、難しいです。 その意味では、コーエンのdを使うのが、現時点でベストと筆者は考えています。
ただ、コーエンのdは、まだまだ知らない人が多いので、「P値が0.05よりも大きいから」といった説明よりは、丁寧に説明する必要があります。
順路 次は 第1種と第2種の誤り
Tweet