トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

P値の改良案・代案・補強案

統計的な検定と、統計教育の歴史にあるように、「『P値0.05』を判断の根拠にするのは不適切」という理解が、徐々に浸透して来ています。

そこで、P値の改良案・代案・補強案が、いろいろと提案されて来ています。このページは、筆者が今までに出会った案について、整理したものです。

以下は、平均値の差の検定を念頭に置いて説明していますが、他の検定でも同様です。

P値の改良案

P値が起こす問題点に対して、P値の計算方法や、使い方を改良しようとする案があります。

発想がシンプルなのが良いところですが、どれも解決策にはなり切れていないものと、筆者は考えています。

有意水準を修正

「P値0.05」が標準的な指標になっていますが、これを「P値0.01」や「P値0.005」というようにして、さらに小さな値にするアイディアです。

スモールデータの検定の効果量のページにあるように、「P値0.05」という基準は、サンプル数が少ない時には、根拠を持っています。

ところが、サンプル数のことを抜きにして、P値の大きさを議論し始めると、根拠がなくなってしまいます。

また、単純にP値を小さくすると、十分過ぎるくらい差があっても、「差があるとは言えない」という結論になりやすくなります。

サンプル数で補正

「P値のサンプル数への影響を修正しよう」という考え方があります。この方法がうまく行けば、「P値0.05」という判定方法が、サンプル数に関係なく適用できます。

「P値に、サンプル数をかける」、「P値にサンプル数の２乗をかける」といった案があるようですが、数理的な根拠はないようです。

この案も、そもそもサンプル数が多いとP値が小さくなりやすいことの理由については踏み込まずに、対策を出しています。

サンプルサイズを事前に決定

「P値には、サンプルサイズに依存してしまうので問題が起きる」という点については、「サンプルサイズの決定を事前にやっておけば、問題が起きない」という考え方があります。サンプル数を固定する統計学として、ひとつの手法になっています。

このアプローチが使えるのは、実験をして、新しくデータを得る場合になります。データが既にあるところから始まるテーマでは、使えないです。

また、多くのデータを取ることが簡単なら、多く取る方が確実な結果が出せるはずですが、この方法は、あえて少ない数のデータを要請することになります。そのため、不自然な理屈の方法論になっています。

検出力の分析

P値による分析への問題点として、「P値は検証に十分な大きさだとしても、検出力が不十分な研究が多い」という指摘が見受けられます。

この指摘は、「どんな検定でも、検出力の算出ができるし、検出力の分析が必要」という前提がありますが、２種類の対立仮説を混同しているため、この前提は誤解です。

検出力が算出できるテーマなら、算出すべきですが、筆者の経験では、算出できないテーマの方が一般的です。

P値の代案

P値の代案は、「これからはP値ではなく、こちらを使うべき」というようにして説明されます。 P値の代案として、信頼区間、確信区間、phc、ベイズファクターがあります。

これらは、アプローチがP値と大きく異なりますが、平均値の差の分布を議論する点が同じなので、サンプル数が多い時の性質がP値と同じになります。そのため、代案にはなり切れていないものと、筆者は理解しています。

なお、P値が引き起こす問題への対策にはなっていないものの、アプローチが違うので、分析できることは違っています。

信頼区間

単に「信頼区間」と呼ぶときには、「平均値の差の信頼区間」という意味です。

P値による分析では、ひとつの値だけを使って考察することに対して、信頼区間による分析では、範囲（区間）を使った考察になります。

P値と信頼区間の関係のページに、やや詳しく書きましたが、P値と信頼区間は、実質的に同じ分析なので、対策にはなっていないです。

確信区間

信頼区間による方法への対策として説明されることがあるのが、確信区間を使う方法です。ベイズ統計学を基盤にしています。

phc

phc もベイズ統計学を基盤にする方法です。

確信区間との違いは、「平均値の差」との関係を定量化する点です。

ベイズファクター

ベイズ統計学を基盤にする方法としては、ベイズファクターもあります。

ベイズファクターには、フィッシャー流の対立仮説のテーマに対して、ネイマン・ピアソン流の解き方ができるように工夫された方法もあり、検定の新しい可能性を示しているものと、筆者は考えています。

しかし、ベイズファクターには、根拠のある目安がないため、実用的ではないです。また、サンプル数が多い時の性質がP値と似ています。

P値の補強案

P値は、それ自体は間違った指標でも、問題のある指標でもないです。問題があるのは、P値を使う人の理解不足です。

改良案や代案ではなく、P値ではわからないことを調べようとする補強案もあります。

これらは、 21世紀の検定にも入っています。

グラフ

平均値の差の検定をする場面は、そもそも平均値が同じかどうかを知りたいのではなく、２つのグループの分布が同じかどうかを知りたいことが多いです。これは、グラフを見れば、結果は一目瞭然なことが、よくあります。

１次元散布図、ヒストグラム、箱ひげ図などを使って、データを実際に見ます。

外れ値やデータの偏りによって、P値が影響されることがあります。そのような時に、グラフは、P値の補助的な手段にもなります。

検定対象そのもの

因果関係の分析で、平均値の差の検定を使う場合は、「平均値の差」が検定対象です。

筆者にも経験があるのですが、「２つのグループの違いを調べたい時は、平均値の差の検定」という理解をしていると、「平均値の差は、いくつなのか？」ということを、まったく気にせずに、P値の値ばかり気にしていることがあります。

平均値の差について、差の意味で検定を補強すると、より強い検定になります。

ちなみに、因果推論の分野では、平均値の差は、「因果効果」と呼ばれています。

また、心理学関係では、平均値の差を、効果量の一種として説明していることがあります。

P値の信頼区間

P値と信頼区間の両方のアイディアを併せ持った「 P値の信頼区間」というものがあります。

サンプルサイズが小さい時は、P値の信頼区間はそれなりに大きいです。そのため、サンプルサイズが小さい時の補助的な指標になります。

効果量

効果量による判断は、平均値の差の具体的な値と、データのばらつきの関係を見ます。

グラフで見えることを、数字で示す方法としても使えます。

効果量の信頼区間

効果量と信頼区間の両方のアイディアを併せ持った「効果量の信頼区間」というものがあります。

従来の信頼区間は、例えば、平均値の差の信頼区間のことですが、研究の目的とミスマッチを起こしています。確信区間でも同様です。

効果量は、研究の目的と合う指標になるのですが、効果量の確からしさがわからないです。

効果量の信頼区間は、効果量だけでなく、その確からしさもわかるようになっています。サンプル数が少ないと、範囲が広くなり、多いと、狭くなります。

効果量も、信頼区間も、第一線の研究者の間で、「使うべき」という認知がある程度広まっています。そのため、効果量の信頼区間は、今後、有望な方法として、受け入れられやすいものと思います。

寄与率

寄与率は、古くからある指標ですが、「P値を見れば良い」という認識が定着してしまったせいか、統計学の解説ではあまり見かけません。

P値が重宝された理由のひとつとして、「０から１の値になるので、判断の指標にしやすい」という点があると思うのですが、この良さが効果量にはありません。

寄与率には、効果量にはない良さがあります。

寄与率の信頼区間

「寄与率の信頼区間」というのは、おそらく誰も必要として来なかったものですが、効果量の信頼区間が必要とされるのと同じ理由で、寄与率を計算するのなら把握しておきたくなります。

順路次は差の意味で検定を補強

杉原データサイエンス事務所によるコンサルティングとセミナー