検定による判断 や、 21世紀の検定 のページは、どちらかと言うと対策を中心とした書き方になっています。
このページは、統計的な検定に対して、歴史的にどのような見方がされて来たのか、という視点で、振り返ってみました。 振り返るだけでなく、「現時点では、どのような見方が、適切なのか?」という点について、筆者の考え方をまとめました。
当分変わることはないと思いますが、2024年時点での私見です。
以下、1,2,3,4ですが、検定の方法を網羅的に解説しようとしている本でないと、4まで書いてないです。
検定には、フィッシャー流と、ネイマン・ピアソン流の2つの流派があります。
2種類の対立仮説 のページに書きましたが、ややこしいことになっています。
ただ、 機械学習 の ラベル分類 を知っている人なら、わかりやすい説明があります。
まず、ネイマン・ピアソン流は、2クラスモデルです。 判別分析 、 ロジスティック回帰分析 、 サポートベクターマシン などと似ています。
一方、フィッシャー流は、 1クラスモデル です。 MT法 、 One-Class SVM などと似ています。
比較的古い統計学の解説では、P値は出て来ないです。
検定をしたい時は、t値やF値と呼ばれる検定統計量を計算して、「0.05の時は、この値」というのを分布表から読み取って、判断します。 筆者が統計学を学んだ時も、この手順で教わりました。
現在は、今風に言うと、 DX が起きていて、こういった手順は一瞬でできるようになりました。
検定統計量は計算の途中で出て来るものではありますが、データ分析の成果としては必要のないものです。 一昔前は、検定の種類毎に検定統計量を知っていなければいけませんでしたが、今は、P値だけ知っていれば、検定統計量を知らなくても、結果の考察ができます。 どの検定統計量を使っても、最終的には、「0.05の時は、この値」という手順がありますが、P値による分析は、この部分に相当します。
「P値が0.05以下でなければ、差があるとは言えない」という理解の仕方は、かなり広まっています。
統計ソフトのデフォルトの判定基準として、採用されていることも多いです。
「0.05」というのは、あくまで目安です。 スモールデータの検定の効果量 のページで、筆者は調べたことがあるのですが、「目安」としては、なかなか良い塩梅の数字です。
ところが、こういう目安ができると、「0.51だから、効果があるとは言えない」や「0.05ちょうどの時はどうなんだ」という風に話が進むことがあります。 筆者は、 P値が0.05よりも高いことを理由に、提案が拒絶された 経験があります。 筆者は、何としてでも、0.05よりも小さくするために、「サンプル数を増やす」、「実験をやり直す」、「外れ値っぽい値を外す」という対策をしたことがありますが、今思えば、時間の無駄でした。 こういう議論に陥らないようにする方が、良いです。
「 p値が0.05よりも大きいので、「差はなし」ですね? 」という質問をいただくこともあります。
それ以前にも、様々な人が指摘していますが、2016年にアメリカ統計協会から出された声明は、象徴的な出来事になっています。
新たな誤解や混乱を引き起こさないように、細心の注意を払った印象がある、丁寧な内容の声明です。 筆者なりに簡潔にまとめると、「『P値0.05以下』という単純な方法で判断してはいけません。」と言っています。
なお、この声明の内容を知っているのは、論文を書くような研究者の、さらに一部のような方々です。 実務で統計学を使う人は、たくさんいらっしゃいますが、そうした人のほとんどが知らないのが現状です。
そのため、自分が説明する相手が、「P値が0.05以下でなければ、差があるとは言えない」という理解をしている可能性があります。 自分が教える側なら良いのですが、そうでない場合は、話の進め方に気を付ける必要があります。
「P値0.05以下」というのは、とても便利な方法論です。 誰でも簡単に統計学を活用する方法としては、素晴らしいものでした。
人の心理として、「『P値0.05以下』を使ってはいけないのなら、どうすれば良いのか?」と考えるのは自然と思います。 非常に便利な方法だっただけに、その落差は、非常に大きいです。
ところが、上記の声明では、「これからは、こうすれば良い」と、明確に書かれてはいないです。 これが新たな混乱を生んでいるようです。
検定による判断のページに、少し説明しましたが、「P値0.05以下」に代わる方法として、 「検出力の考慮」、「信頼区間で判断」、「確信区間で判断」が、説明されることがあります。
しかし、これらの代案は、代案になり切れていないと、筆者は考えています。
P値と併用して判断基準にすると良い指標として、「効果量」というものが考案されています。
検定による判断のページにも書きましたが、効果量の併用は、アフターP値の方法論として、現実的な方法です。
P値がどのようなものなのかについては、統計学のユーザの中で、徐々に、認識のアップデートが広まっているようです。
ところで、例えば、平均値の差の検定 のページでは、「平均値の差の検定は、「平均値の差は、平均値の分布のばらつきが何個分か?」ということを、評価する方法」と書いていますが、 こういう説明の仕方は、一般的ではないです。
一般的な検定の解説では、「検定統計量はこうです」と、式が出て来るだけのことが、とても多く、意味を説明しないです。
そのため、 平均値の差の検定で、できないこと については、筆者の知る限りでは、2024年時点でも、教えられていないです。
21世紀の検定 は、筆者が考案した方法です。 平均値の差の検定で、できないこと があるので、できないことをできるようにしたくて、考えました。
もしかしたら、既に同じ方法が発表されているのかもしれないのですが、筆者は知る機会がなかったので、独自に考案しています。
21世紀の検定は、理論整然と生まれた訳ではなく、「効果量」がヒントになって出来上がって来ました。
効果量で評価しようとしているものは、平均値の差の検定で、P値が評価しようとしているものとは、違っています。 効果量が評価しているのは、平均値の差ではなく、分布全体の差です。
現時点の立場で、歴史を振り返ると、効果量の提案というのは、 「皆さんが評価したいのは、平均値の差ではなく、分布全体の差ですよね。 それなら、平均値の差の検定は、適切な方法ではないです。 効果量なら、評価できるようになりますよ。」 という提案になっていたと考えられます。 言い換えると、 「今までの方法は、手段と目的が合っていないです。」 という指摘になっていたと考えられます。
統計学に慣れて来ると、確率的な思考をするようになりますが、効果量だとできないです。
また、単純な効果量の計算では、サンプル数が多い事による、計算の確からしさが評価できないです。 (この弱点については、効果量の信頼区間が、直接的な対策になります。)
21世紀の検定は、目的に合った手段として開発したものです。 また、効果量の弱点への対策にもなっています。
検定には、様々なものが既に開発されていて、体系図が作れるほどになっています。 そのため、「新しい方法が必要」とは考えにくいですし、まして、検定の中でも初歩とされる、平均値の差の検定に「目的と手段が合っていない」という人は、 現れにくいです。
しかし、よくよく考えると、目的と手段が合っていないことに気付きました。
平均値の差の検定で出て来るP値には、サンプル数が増えれば、いくらでも小さくなる性質があります。
この部分だけを取り上げて、「こんなP値では、判断に使えない」とするのが、ありがちな考え方です。
しかし、このような考え方になってしまうのは、このP値が何を表しているのかが理解されていないためです。 標準誤差 等を知っているとわかるのですが、このP値は、変な数字でも、間違った数字でもなく、「計算した平均値が、数値として区別できるか」という指標としては、適切なものです。 間違っているのは、そうとは知らずに、平均値の差の検定を使っていることにあります。
なお、 スモールデータの検定の効果量 にあるように、スモールデータの場合は、平均値の差の検定のP値でも、2つの分布の全体的な差の分析はできます。 これが、混乱の原因のひとつです。
「統計的有意性と P 値に関する ASA 声明」 佐藤俊哉 著 日本計量生物学会 2017
アメリカ統計協会の声明の、日本語訳として、日本計量生物学会から出されています。
https://www.biometrics.gr.jp/news/all/ASA.pdf
P値の基本的な説明から始まり、世の中で起きている誤解についても説明しています。
順路 次は 平均値の差の検定の実務