杉原データサイエンス事務所のロゴ トップページ | 統計学の解釈学 | このサイトについて

P値0.05には根拠がある

以下は、筆者の私見です。 誤解があれば、ご教示いただけると幸いです。


統計学の解説書では、「P値は、0.05にする」といったように説明していることがあります。 この数字を目安にする理由を説明している文献は少ないですが、文献によっては、0.05を使い始めたのは、最初に検定を開発したフィッシャー氏で、経験的に決めたことが書いてあります。

筆者自身も、0.05はちょうど良い数字と思っています。 筆者の経験でも、0.05よりも大きいケースについて、「差がある」として進めるのは、うまく行きません。

しかし、「経験的にちょうど良い」というのは、共有しにくい表現です。 この目安について、否定的な言葉を使う方もいらっしゃいます。

このページは、「経験的」では納得できない人向けに、0.05の根拠を後付けで書いたものです。 母平均の差の検定の場合だけですが、0.05が良い目安になる根拠を、筆者は確認しています。

0.05が良い目安になる根拠

根拠は、「サンプル数が数個から数十個の場合、P値が0.05以下であることは、効果量がある程度大きいことも兼ねている」になります。

背景として、フィッシャー氏の研究は、サンプル数が多く取れるものではなかったことがあります。 そのような時は、効果量も大きくないと、P値が0.05以下になりません。 そのため、P値が良い目安になっていたと考えられます。

P値と効果量の関係の話は、 スモールデータの検定の効果量 のページにあります。

0.05が良い目安になる根拠

確率の話から、分布の違いの話へ

P値が確率なので、「確率が0.05(5%)くらいで、差の有無を判定するのは危ない」といった方向に議論が進むことがありますが、 効果量がどのくらいになっているのかで意味を考えた方が、見通しが良いです。

例えば、サンプル数が5個なら、P値が0.05というのは、効果量が1くらいなことを表しています。 分布の違いとして、効果量が1というのは、大きな差です。

0.05が厳密な指標にならない理由

「0.051だから差があるとは言えない」、「0.049だから差がある」といった使い方がされがちですが、いずれの使い方も、良くありません。 良い調査を却下したり、不適切な調査を通過させたりする使い方になります。

差のある・なしは、「差の大きさ」、「グラフによるデータの出方」、「いつ、どこで、何を、どうやって測定したか」といったことから、総合的に判断するものなので、P値だけで決められるものではないです。 例えば、0.1だとしても、「差がありそう」という判断をして、その後を進めてみることもできます

0.05が厳密には使えない理由としては、サンプル数によって、P値が変わる点があります。 P値が同じでも、サンプル数が多い時と、少ない時では、効果量は大きく違っています。

P値は、一次評価の指標

P値について、世の中で問題になったのは、P値を唯一の評価指標としたり、最終の評価指標とした場合に起こっています。 これらの使い方をすると、「サンプル数の影響を受ける」という性質に振り回されます。

一方、P値を一次評価の指標として使う場合は、特に問題が起きません。



P値の改良案・代案・補強案




杉原データサイエンス事務所のロゴ
杉原データサイエンス事務所によるコンサルティングとセミナー