P値0.05には根拠がある

以下は、筆者の私見です。誤解があれば、ご教示いただけると幸いです。

統計学の解説書では、「P値は、0.05にする」といったように説明していることがあります。この数字を目安にする理由を説明している文献は少ないですが、文献によっては、0.05を使い始めたのは、最初に検定を開発したフィッシャー氏で、経験的に決めたことが書いてあります。

筆者自身も、0.05はちょうど良い数字と思っています。筆者の経験でも、0.05よりも大きいケースについて、「差がある」として進めるのは、うまく行きません。

しかし、「経験的にちょうど良い」というのは、共有しにくい表現です。この目安について、否定的な言葉を使う方もいらっしゃいます。

このページは、「経験的」では納得できない人向けに、0.05の根拠を後付けで書いたものです。母平均の差の検定の場合だけですが、0.05が良い目安になる根拠を、筆者は確認しています。

0.05が良い目安になる根拠

根拠は、「サンプル数が数個から数十個の場合、P値が0.05以下であることは、効果量がある程度大きいことも兼ねている」になります。

背景として、フィッシャー氏の研究は、サンプル数が多く取れるものではなかったことがあります。そのような時は、効果量も大きくないと、P値が0.05以下になりません。そのため、P値が良い目安になっていたと考えられます。

P値と効果量の関係の話は、スモールデータの検定の効果量のページにあります。

0.05が良い目安になる根拠

P値が確率なので、「確率が0.05(5%)くらいで、差の有無を判定するのは危ない」といった方向に議論が進むことがありますが、効果量がどのくらいになっているのかで意味を考えた方が、見通しが良いです。

例えば、サンプル数が５個なら、P値が0.05というのは、効果量が１くらいなことを表しています。分布の違いとして、効果量が１というのは、大きな差です。

「0.051だから差があるとは言えない」、「0.049だから差がある」といった使い方がされがちですが、いずれの使い方も、良くありません。良い調査を却下したり、不適切な調査を通過させたりする使い方になります。

差のある・なしは、「差の大きさ」、「グラフによるデータの出方」、「いつ、どこで、何を、どうやって測定したか」といったことから、総合的に判断するものなので、P値だけで決められるものではないです。例えば、0.1だとしても、「差がありそう」という判断をして、その後を進めてみることもできます

0.05が厳密には使えない理由としては、サンプル数によって、P値が変わる点があります。 P値が同じでも、サンプル数が多い時と、少ない時では、効果量は大きく違っています。

P値について、世の中で問題になったのは、P値を唯一の評価指標としたり、最終の評価指標とした場合に起こっています。これらの使い方をすると、「サンプル数の影響を受ける」という性質に振り回されます。

一方、P値を一次評価の指標として使う場合は、特に問題が起きません。