トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

検定による判断

検定 は、科学的な研究の評価や、 意思決定 で、とても強力な方法になります。

ただ、この方法には、2024年の時点でも、世の中で様々な理解をされています。 このページでは、様々な判断の方法を整理しました。

なお、平均値の差の検定を例にしていますが、他の方法でも同様です。

このページを読むと、「では、どうすれば良いのか?」、となりますが、もっと実務的な方法論については、 平均値の差の検定の実務 のページがあります。

P値による判断・有意水準による判断

2003年頃、「P値が0.05(5%)より高いか低いかで判断すれば良い。判断を間違えた場合にリスクが高い場合は、0.01で判断すれば良い」と、筆者は会社で教わりました。

この0.05や0.01は、「有意水準」と呼ばれていました。

この方法は、筆者のいた会社に限らず、世の中全体で定説だったようです。2024年の時点も、この方法で判断する人は多いようです。

この方法は、統計学の事をよく知らなくても、とにかくソフトにデータを入れればできます。 また、0.05より大きいか小さいかだけの話なので、迷う余地がないです。 この簡単さと、わかりやすさによって、多くの人がデータを活用していくための方法として、広まったようです。

ちなみに、P値による判断の方法は、 第1種と第2種の誤り多重性の問題 という問題の原因になっています。

P値の問題点

P値の問題点としては、「P値の意味や性質を正しく理解していない」、というのが定説のようです。

しかし、筆者としては、「目的と手段が合っていない事が、非常に多い」というのが本当の問題点と考えています。 つまり、例えば、「2つのグループの差を見たい」という目的と、「平均値の差の検定」を手段にするという関係の問題です。

平均値の差の検定で調べられるのは、文字通り「平均値の差」です。 平均値の差の検定が使われるテーマでは、平均値の差を調べるのは、便宜的なことで、実際は、2つのグループ全体で差があるかを見たいことが多いと思うのですが、平均値の値の差の検定で調べられるのは、平均値の差だけです。 数字として、2つの平均値に違いがあると言えるのかだけを調べる理論になっています。 データのばらつきに、どの位の重なりがあるのかは、調べることができません。 (「平均値の差の検定で、できないこと」のページで図解しています。)

P値ではなく、信頼区間や確信区間を使ったとしても、平均値の差だけを調べる方法である点は、同じになっています。

P値による判断でも正しい時

例えば、2つの平均値に違いがあると言えるのかだけを調べたいのであれば、平均値の差の検定で、「P値0.05」、「信頼区間を見る」、「確信区間を見る」と言った方法は、間違いではないです。

P値の見方の改良案

いずれも統計量の分布を調べる方法なので、P値で起きている困りごとの根本的な解決ではないのですが、P値の改善を図る提案があります。

サンプルサイズや検出力を事前に検討してから計算したP値による判断

「P値には、サンプルサイズに依存してしまうので問題が起きる」という点については、「サンプルサイズの決定を事前にやっておけば、問題が起きない」という考え方があります。 サンプル数を固定する統計学 として、ひとつの手法になっています。

このアプローチが使えるのは、実験をして、新しくデータを得る場合になります。

データが既にあって分析をする場合には、使えないです。

また、実際のデータには、ばらつきが起こるので、このアプローチをしたからと言って、結果の再現性が保証されるわけではないです。

検出力による判断

P値による分析への問題点として、「P値は検証に十分な大きさだとしても、 検出力 が不十分な研究が多い」という指摘が見受けられます。

この指摘ですが、まず、2種類の対立仮説の混同があるようです。

そのため、「どんな検定でも、検出力の算出ができるし、検出力の分析が必要」という理解は、誤解です。

信頼区間による判断

「P値だけで判断してはいけない」という理解が広まって来た中で、提案されているのは、信頼区間による方法です。 筆者がネットや本などで、調べた感じだと、「信頼区間を使えば良い」という認識をしている人は、かなりいらっしゃるようです。

P値による分析では、ひとつの値だけを使って考察することに対して、信頼区間による分析では、範囲(区間)を使った考察になります。 このため、信頼区間では、データのばらつきを考慮できる分析になるように理解されているのかもしれませんが、このような優劣の考え方は誤解です。

P値と信頼区間の関係 のページに、やや詳しく書きましたが、P値と信頼区間は、実質的に同じ分析なので、対策にはなっていないようです。

確信区間による判断

信頼区間による方法への対策として説明されることがあるのが、 確信区間 を使う方法です。 ベイズ統計学 を基盤にしています。

この方法は、近年のコンピュータの発達によって実用的になった背景があり、 「新しい方法」という位置付けになっています。 しかし、サンプル数が多い時の性質は、信頼区間と同様のため、対策になりきれていないようです。

サンプル数の補正

「P値のサンプル数への影響を修正しよう」という考え方があります。 この方法がうまく行けば、「P値0.05」という判定方法が、サンプル数に関係なく適用できます。

「P値に、サンプル数をかける」、「P値にサンプル数の2乗をかける」といった案があるようですが、数理的な根拠はないようです。

強制的に補正するのなら、検定統計量の計算の時に、例えば、「n = 5で固定」といった案ができるかもしれません。

統計量の分布ではなく、データの分布を見る方法

データ分析の厳密性・客観性を確保するために、統計量の分布を扱う理論を持ち出していることが、上記の手法に共通した間違いになっています。

グラフによる判断

グラフを見れば、結果は一目瞭然なことが、よくあります。

1次元散布図ヒストグラム箱ひげ図 などを使って、データを実際に見ます。

外れ値、等でP値が大きく変わる可能性があるので、グラフによる判断は、P値による方法の補助的な手段として使われることもあります。

効果量による判断

効果量による判断は、平均値の差の具体的な値と、データのばらつきの関係を見ます。

グラフで見えることを、数字で示す方法として使えます。

効果量の信頼区間による判断

効果量と信頼区間の両方のアイディアを併せ持った「 効果量の信頼区間 」というものがあります。

従来の信頼区間は、例えば、平均値の差の信頼区間のことですが、研究の目的とミスマッチを起こしています。 確信区間でも同様です。

効果量は、研究の目的と合う指標になるのですが、効果量の確からしさがわからないです。

効果量の信頼区間は、効果量だけでなく、その確からしさもわかるようになっています。 サンプル数が少ないと、範囲が広くなり、多いと、狭くなります。

効果量も、信頼区間も、第一線の研究者の間で、「使うべき」という認知がある程度広まっています。 そのため、効果量の信頼区間は、今後、有望な方法として、受け入れられやすいものと思います。

21世紀の検定のP値

P値に対しての批判は、数多くありますが、P値自体には何の問題もないです。 問題があったのは、目的に合わない手段が使われ続けて来たことにあります。

それを踏まえて、P値を改めて見直すと、P値はすばらしい指標です。 「確率」という考え方に帰着させて、判断することができる指標になっています。

目的に合わない手段が使われ続けて来た原因のひとつとして、目的に合う手段がなかったことがあります。 21世紀の検定 は、目的に合う手段として、筆者が考案した方法です。

21世紀の検定は、P値を使って、判断できるように作っています。 21世紀の検定のP値には、「サンプル数が多いだけでも、限りなく0に近付く」という性質がないです。

21世紀の検定のP値の信頼区間

効果量の信頼区間は、効果量が持つ単位でできているので、それ自体は、確率的な尺度になっていないです。

話は、従来の統計学に遡るのですが、従来の統計学の中では、点推定と区間推定という考え方があります。 改めて考えると、P値は点推定です。 これがどういうことかというと、「データセットが変わるとP値の値は変わる」という性質は、P値が点推定であることを表しています。 「データセットが変わると」ということを踏まえた、「P値の区間推定」、言い換えると「P値の信頼区間」というものがあってもおかしくないのですが、筆者の知る限りでは、どなたも開発しなかったようです。

21世紀の検定 では、 P値の信頼区間 も評価できるようにしています。

まとめとして

P値、検出力、信頼区間、確信区間は、目的に合わない手段の上では、どう頑張っても、いまいちです。 ボタンをする時に、1個目の組み合わせを間違えると、全部がずれるのと似ています。 修正をするには、1個目からになります。

効果量のアイディアは、統計学的なデータの見方は入っていますが、検定の中で培われた知見は、あまり活きて来ないです。

21世紀の検定は、1個目のボタンまで戻って開発した方法です。 1個目が合って来ると、先人が築いてくださった、P値、信頼区間、効果量の理論が、大活躍できるようになります。



「平均値の数値的な差」というのは、どういうことですか?



順路 次は 検定による判断の弱点

データサイエンス教室