統計学の入門的な解説では、「2つの分布に差があるかどうかを調べたい時は、 平均値の差の検定 を使う」としか書かれていないことが多いです。
統計的な検定と、統計教育の歴史 のページに、やや詳しくまとまっていますが、もう少し進んだ解説だと、 「p値を使った判断には、大きな問題がある」ということが示されています。 対策として、 信頼区間 や 確信区間 の活用を示している文献があります。
しかし、筆者としては、これらの方法は、対策になっていないように考えています。 従来のアプローチの根本的な問題は、データの全体的な違いの評価に、統計量の数値的な違いの評価方法を使っていることにあるためです。 抽象的に言うのなら、根本的な問題点は、手段と目的の不一致です。 数値的な違いの評価方法に対策しても、対策になっていないです。
そこで目的に合った方法を、筆者自身が納得できる形でまとめてみたのが、このページです。
統計学の教科書にのっているような検定の手法は、パソコンが身近ではなく、紙と鉛筆で統計学の計算をしていた時代に考案されています。 この時代は、いわゆるスモールデータしか扱っていないです。
スモールデータの場合、20世紀までに開発された手法だとしても、データの全体的な違いの評価が、ある程度はできます。 そのため、21世紀の検定が必要とされて来なかったようです。
21世紀の検定は、何もかも新しいのではなく、20世紀の検定に対応するものがあります。
20世紀の検定において、P値は大混乱を巻き起こしていますが、21世紀の検定があると、この混乱は収束できると思います。
例えば、 平均値の差の検定 の場合、平均値の差の検定のP値を、平均値の数値的な違いの評価として使うのでしたら、目的と手段が合っています。
「P値は0.05」という判断基準が昔からありますが、この基準は良い目安になります。 サンプル数が多いと、P値は限りなく小さくなる性質がありますが、数値的な違いの評価としては、何の問題もないです。 数値的な違いの評価をしたいのなら、「サンプル数が多いと、P値は限りなく小さくなる」という性質は、正しいです。
数値的な違いの評価であることを知らずに、数値的な違いの評価を使ってしまっているテーマは、膨大な数になっています。 一方、数値的な違いの評価が目的に合った手段になっているテーマもあります。 筆者がまず思い当たるのは、 ゲージR&R です。 測定システムの評価では、数値的な違いの評価が役に立ちます。
21世紀の検定のP値の場合、手法や研究テーマによって違うとは思いますが、例えば、「P値は0.5以下(50%以下)」が目安になります。 0.05ではないです。
「0.5と0.05の違い」という風に見ると、単なる基準の違いのようにも見えますが、この違いは、P値の意味の違いが理由になっています。
例えば、
差による分布の重なりの検定
では、分布が重なっているところの面積の割合をP値にしています。
分野に関係なく、誰もが「差がある」という印象を持ちやすい基準としては、「半分(0.5)違う」というあたりと思いますので、「0.5」という数字が出て来ています。
多くの研究では、2群の違いは、データをグラフにすると、結果が一目瞭然です。 21世紀の検定のP値は、グラフで見えていることを、定量的に言葉で表現するものになります。
そのため、21世紀の検定は、多くの研究にとって、目的に合った手段になる、筆者は考えています。
21世紀の検定を使う時に、20世紀の検定を、事前分析として実施しておくと良いようです。
例えば、上の例のように 差による分布の重なりの検定 をするのなら、平均値が数値的に区別できていることは検定の前提になります。 その前提の確認が目的なら、 平均値の差の検定 は目的と手段が合っています。
上記でP値の考え方の違いを書きましたが、その他の違いは、下表になります。
21世紀の検定は、大きく2つのタイプがあることでも分けています。
なお、20世紀の検定と、21世紀の検定との違いや、21世紀の検定の2つのタイプの分け方になるように、21世紀の検定の手法群を考案した訳ではないです。 目的に合う手法を模索して作って行く中で、10種類くらい作ってみたら、上記のような分け方ができることに気付いたのが経緯になります。
順路 次は 21世紀の検定のサンプル数