トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

統計的な検定と、統計教育の歴史

検定の結果の見方と、見せ方や、 21世紀の検定のページは、どちらかと言うと対策を中心とした書き方になっています。

このページは、統計的な検定に対して、歴史的にどのような見方がされて来たのか、という視点で、振り返ってみました。振り返るだけでなく、「現時点では、どのような見方が、適切なのか？」という点について、筆者の考え方をまとめました。

当分変わることはないと思いますが、2024年時点での私見です。

数十年前から一般的になっている、統計学の入門的な説明

数十年前から、統計学の入門書では、以下のような順番で説明するようになっています。

以下、1,2,3,4ですが、検定の方法を網羅的に解説しようとしている本でないと、4まで書いてないです。

２つの分布の差を見たい時は、平均値の差の検定（母平均の差の検定）を使いましょう
２つの分布のサンプル同士に対応がある場合は、対応のある検定（対応ありの母平均の差の検定）を使いましょう
ばらつきの違いの検定（母分散の比の検定）や、比率の差の検定といったものもあります。
正規分布ではない分布の場合は、ノンパラメトリック検定を使いましょう。

何が問題か？

上記のような説明の仕方は、検定の説明としては、間違いではないです。そのため、統計学の勉強や研究が目的なら、間違いではないです。

しかし、実務のテーマについての、データ分析の説明としては、不足があります。

不足があるにも関わらず、「P値を見れば良い」というようにして、不足している内容の範囲の中だけで結論を出そうとして来た歴史があります。

フィッシャー流と、ネイマン・ピアソン流の混同の始まり

検定には、フィッシャー流と、ネイマン・ピアソン流の２つの流派があります。

統計学の解説では、フィッシャー流とネイマン・ピアソン流を特に区別せず、両方の話題が混ざっていることがあります。２種類の対立仮説のページに書きましたが、ややこしいことになっています。

ただ、機械学習のラベル分類を知っている人なら、わかりやすい説明があります。

まず、ネイマン・ピアソン流は、２クラスモデルです。判別分析、ロジスティック回帰分析、サポートベクターマシンなどと似ています。

一方、フィッシャー流は、 1クラスモデルです。 MT法、 One-Class SVM などと似ています。

P値のDX

比較的古い統計学の解説では、P値は出て来ないです。

検定をしたい時は、t値やF値と呼ばれる検定統計量を計算して、「0.05の時は、この値」というのを分布表から読み取って、判断します。筆者が統計学を学んだ時も、この手順で教わりました。

現在は、今風に言うと、 DX が起きていて、こういった手順は一瞬でできるようになりました。

検定統計量は計算の途中で出て来るものではありますが、データ分析の成果としては必要のないものです。一昔前は、検定の種類毎に検定統計量を知っていなければいけませんでしたが、今は、P値だけ知っていれば、検定統計量を知らなくても、結果の考察ができます。どの検定統計量を使っても、最終的には、「0.05の時は、この値」という手順がありますが、P値による分析は、この部分に相当します。

「P値が0.05以下でなければ、差があるとは言えない」という認識の普及

「P値が0.05以下でなければ、差があるとは言えない」という理解の仕方は、かなり広まっています。

統計ソフトのデフォルトの判定基準として、採用されていることも多いです。

「0.05」というのは、あくまで目安です。スモールデータの検定の効果量のページで、筆者は調べたことがあるのですが、「目安」としては、なかなか良い塩梅の数字です。

ところが、こういう目安ができると、「0.51だから、効果があるとは言えない」や「0.05ちょうどの時はどうなんだ」という風に話が進むことがあります。筆者は、 P値が0.05よりも高いことを理由に、提案が拒絶された経験があります。筆者は、何としてでも、0.05よりも小さくするために、「サンプル数を増やす」、「実験をやり直す」、「外れ値っぽい値を外す」という対策をしたことがありますが、今思えば、時間の無駄でした。こういう議論に陥らないようにする方が、良いです。

P値の誤用や拡大解釈への指摘

それ以前にも、様々な人が指摘していますが、2016年にアメリカ統計協会から出された声明は、象徴的な出来事になっています。

新たな誤解や混乱を引き起こさないように、細心の注意を払った印象がある、丁寧な内容の声明です。筆者なりに簡潔にまとめると、「『P値0.05以下』という単純な方法で判断してはいけません。」と言っています。

なお、この声明の内容を知っているのは、論文を書くような研究者の、さらに一部のような方々です。実務で統計学を使う人は、たくさんいらっしゃいますが、そうした人のほとんどが知らないのが現状です。

そのため、自分が説明する相手が、「P値が0.05以下でなければ、差があるとは言えない」という理解をしている可能性があります。自分が教える側なら良いのですが、そうでない場合は、話の進め方に気を付ける必要があります。気を付け方については、検定の結果の見方と、見せ方のページにあります。

P値以外の方法

「P値0.05以下」というのは、とても便利な方法論です。誰でも簡単に統計学を活用する方法としては、素晴らしいものでした。

人の心理として、「『P値0.05以下』を使ってはいけないのなら、どうすれば良いのか？」と考えるのは自然と思います。非常に便利な方法だっただけに、その落差は、非常に大きいです。

P値の改良案・代案・補強案にまとめていますが、P値の改良案や代案として、様々な方法が提案されています。

しかし、「そもそもP値は、何を評価しているのか？」という確認がない中で、表面的な問題に対して、対策案を出しているため、代案になり切れていない代案が多いです。

2024年時点でも、教えられていないこと

P値がどのようなものなのかについては、統計学のユーザの中で、徐々に、認識のアップデートが広まっているようです。

ところで、例えば、平均値の差の検定のページでは、「平均値の差の検定は、「平均値の差は、平均値の分布のばらつきが何個分か？」ということを、評価する方法」と書いていますが、こういう説明の仕方は、一般的ではないです。

一般的な検定の解説では、「検定統計量はこうです」と、式が出て来るだけのことが、とても多く、意味を説明しないです。

そのため、平均値の差の検定で、できないことについては、筆者の知る限りでは、2024年時点でも、教えられていないです。

P値の復権へ

平均値の差の検定で出て来るP値には、サンプル数が増えれば、いくらでも小さくなる性質があります。

この部分だけを取り上げると、「こんなP値では、判断に使えない」というように思えて来ます。

しかし、このような考え方になってしまうのは、このP値が何を表しているのかが理解されていないためです。標準誤差等を知っているとわかるのですが、このP値は、変な数字でも、間違った数字でもなく、「計算した平均値が、数値として区別できるか」という指標としては、適切なものです。間違っているのは、そうとは知らずに、平均値の差の検定を使っていることにあります。

なお、スモールデータの検定の効果量にあるように、スモールデータの場合は、平均値の差の検定のP値でも、２つの分布の全体的な差の分析はできます。これが、混乱の原因のひとつです。

21世紀の検定は、P値の復権も含めて、検定を再構成したものです。

「平均値の数値的な差」というのは、どういうことですか？

参考文献

「統計的有意性と P 値に関する ASA 声明」　佐藤俊哉　著　日本計量生物学会　2017
アメリカ統計協会の声明の、日本語訳として、日本計量生物学会から出されています。
https://www.biometrics.gr.jp/news/all/ASA.pdf
P値の基本的な説明から始まり、世の中で起きている誤解についても説明しています。

順路次は検定の結果の見方と、見せ方

杉原データサイエンス事務所によるコンサルティングとセミナー