トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

統計的な検定と、統計教育の歴史

検定による判断や、 21世紀の検定のページは、どちらかと言うと対策を中心とした書き方になっています。

このページは、統計的な検定に対して、歴史的にどのような見方がされて来たのか、という視点で、振り返ってみました。振り返るだけでなく、「現時点では、どのような見方が、適切なのか？」という点について、筆者の考え方をまとめました。

当分変わることはないと思いますが、2024年時点での私見です。

数十年前から一般的になっている、統計学の入門的な説明

以下、1,2,3,4ですが、検定の方法を網羅的に解説しようとしている本でないと、4まで書いてないです。

２つの分布の差を見たい時は、平均値の差の検定（母平均の差の検定）を使いましょう
２つの分布のサンプル同士に対応がある場合は、対応のある検定（対応ありの母平均の差の検定）を使いましょう
ばらつきの違いの検定（母分散の比の検定）や、比率の差の検定といったものもあります。
正規分布ではない分布の場合は、ノンパラメトリック検定を使いましょう。

フィッシャー流と、ネイマン・ピアソン流の混同の始まり

検定には、フィッシャー流と、ネイマン・ピアソン流の２つの流派があります。

２種類の対立仮説のページに書きましたが、ややこしいことになっています。

ただ、機械学習のラベル分類を知っている人なら、わかりやすい説明があります。

まず、ネイマン・ピアソン流は、２クラスモデルです。判別分析、ロジスティック回帰分析、サポートベクターマシンなどと似ています。

一方、フィッシャー流は、 1クラスモデルです。 MT法、 One-Class SVM などと似ています。

P値のDX

比較的古い統計学の解説では、P値は出て来ないです。

検定をしたい時は、t値やF値と呼ばれる検定統計量を計算して、「0.05の時は、この値」というのを分布表から読み取って、判断します。筆者が統計学を学んだ時も、この手順で教わりました。

現在は、今風に言うと、 DX が起きていて、こういった手順は一瞬でできるようになりました。

検定統計量は計算の途中で出て来るものではありますが、データ分析の成果としては必要のないものです。一昔前は、検定の種類毎に検定統計量を知っていなければいけませんでしたが、今は、P値だけ知っていれば、検定統計量を知らなくても、結果の考察ができます。どの検定統計量を使っても、最終的には、「0.05の時は、この値」という手順がありますが、P値による分析は、この部分に相当します。

「P値が0.05以下でなければ、差があるとは言えない」という認識の普及

「P値が0.05以下でなければ、差があるとは言えない」という理解の仕方は、かなり広まっています。

統計ソフトのデフォルトの判定基準として、採用されていることも多いです。

「0.05」というのは、あくまで目安です。スモールデータの検定の効果量のページで、筆者は調べたことがあるのですが、「目安」としては、なかなか良い塩梅の数字です。

ところが、こういう目安ができると、「0.51だから、効果があるとは言えない」や「0.05ちょうどの時はどうなんだ」という風に話が進むことがあります。筆者は、 P値が0.05よりも高いことを理由に、提案が拒絶された経験があります。筆者は、何としてでも、0.05よりも小さくするために、「サンプル数を増やす」、「実験をやり直す」、「外れ値っぽい値を外す」という対策をしたことがありますが、今思えば、時間の無駄でした。こういう議論に陥らないようにする方が、良いです。

「 p値が0.05よりも大きいので、「差はなし」ですね？」という質問をいただくこともあります。

P値の誤用や拡大解釈への指摘

それ以前にも、様々な人が指摘していますが、2016年にアメリカ統計協会から出された声明は、象徴的な出来事になっています。

新たな誤解や混乱を引き起こさないように、細心の注意を払った印象がある、丁寧な内容の声明です。筆者なりに簡潔にまとめると、「『P値0.05以下』という単純な方法で判断してはいけません。」と言っています。

なお、この声明の内容を知っているのは、論文を書くような研究者の、さらに一部のような方々です。実務で統計学を使う人は、たくさんいらっしゃいますが、そうした人のほとんどが知らないのが現状です。

そのため、自分が説明する相手が、「P値が0.05以下でなければ、差があるとは言えない」という理解をしている可能性があります。自分が教える側なら良いのですが、そうでない場合は、話の進め方に気を付ける必要があります。

アフターP値

「P値0.05以下」というのは、とても便利な方法論です。誰でも簡単に統計学を活用する方法としては、素晴らしいものでした。

人の心理として、「『P値0.05以下』を使ってはいけないのなら、どうすれば良いのか？」と考えるのは自然と思います。非常に便利な方法だっただけに、その落差は、非常に大きいです。

ところが、上記の声明では、「これからは、こうすれば良い」と、明確に書かれてはいないです。これが新たな混乱を生んでいるようです。

代案になり切れていない代案

検定による判断のページに、少し説明しましたが、「P値0.05以下」に代わる方法として、「検出力の考慮」、「信頼区間で判断」、「確信区間で判断」が、説明されることがあります。

しかし、これらの代案は、代案になり切れていないと、筆者は考えています。

効果量による判断

P値と併用して判断基準にすると良い指標として、「効果量」というものが考案されています。

検定による判断のページにも書きましたが、効果量の併用は、アフターP値の方法論として、現実的な方法です。

2024年時点でも、教えられていないこと

P値がどのようなものなのかについては、統計学のユーザの中で、徐々に、認識のアップデートが広まっているようです。

ところで、例えば、平均値の差の検定のページでは、「平均値の差の検定は、「平均値の差は、平均値の分布のばらつきが何個分か？」ということを、評価する方法」と書いていますが、こういう説明の仕方は、一般的ではないです。

一般的な検定の解説では、「検定統計量はこうです」と、式が出て来るだけのことが、とても多く、意味を説明しないです。

そのため、平均値の差の検定で、できないことについては、筆者の知る限りでは、2024年時点でも、教えられていないです。

21世紀の検定の開発

21世紀の検定は、筆者が考案した方法です。平均値の差の検定で、できないことがあるので、できないことをできるようにしたくて、考えました。

もしかしたら、既に同じ方法が発表されているのかもしれないのですが、筆者は知る機会がなかったので、独自に考案しています。

橋渡しは効果量

21世紀の検定は、理論整然と生まれた訳ではなく、「効果量」がヒントになって出来上がって来ました。

効果量で評価しようとしているものは、平均値の差の検定で、P値が評価しようとしているものとは、違っています。効果量が評価しているのは、平均値の差ではなく、分布全体の差です。

現時点の立場で、歴史を振り返ると、効果量の提案というのは、「皆さんが評価したいのは、平均値の差ではなく、分布全体の差ですよね。それなら、平均値の差の検定は、適切な方法ではないです。効果量なら、評価できるようになりますよ。」という提案になっていたと考えられます。言い換えると、 「今までの方法は、手段と目的が合っていないです。」 という指摘になっていたと考えられます。

効果量の弱点

統計学に慣れて来ると、確率的な思考をするようになりますが、効果量だとできないです。

また、単純な効果量の計算では、サンプル数が多い事による、計算の確からしさが評価できないです。（この弱点については、効果量の信頼区間が、直接的な対策になります。）

目的に合った手段の開発

21世紀の検定は、目的に合った手段として開発したものです。また、効果量の弱点への対策にもなっています。

検定には、様々なものが既に開発されていて、体系図が作れるほどになっています。そのため、「新しい方法が必要」とは考えにくいですし、まして、検定の中でも初歩とされる、平均値の差の検定に「目的と手段が合っていない」という人は、現れにくいです。

しかし、よくよく考えると、目的と手段が合っていないことに気付きました。

P値の復権

平均値の差の検定で出て来るP値には、サンプル数が増えれば、いくらでも小さくなる性質があります。

この部分だけを取り上げて、「こんなP値では、判断に使えない」とするのが、ありがちな考え方です。

しかし、このような考え方になってしまうのは、このP値が何を表しているのかが理解されていないためです。標準誤差等を知っているとわかるのですが、このP値は、変な数字でも、間違った数字でもなく、「計算した平均値が、数値として区別できるか」という指標としては、適切なものです。間違っているのは、そうとは知らずに、平均値の差の検定を使っていることにあります。

なお、スモールデータの検定の効果量にあるように、スモールデータの場合は、平均値の差の検定のP値でも、２つの分布の全体的な差の分析はできます。これが、混乱の原因のひとつです。

「平均値の数値的な差」というのは、どういうことですか？

参考文献

「統計的有意性と P 値に関する ASA 声明」　佐藤俊哉　著　日本計量生物学会　2017
アメリカ統計協会の声明の、日本語訳として、日本計量生物学会から出されています。
https://www.biometrics.gr.jp/news/all/ASA.pdf
P値の基本的な説明から始まり、世の中で起きている誤解についても説明しています。

順路次は検定の結果の見方と、見せ方