トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

21世紀の検定

統計学の入門的な解説では、「２つの分布に差があるかどうかを調べたい時は、平均値の差の検定を使う」としか書かれていないことが多いです。

統計的な検定と、統計教育の歴史のページに、やや詳しくまとまっていますが、もう少し進んだ解説だと、「p値を使った判断には、大きな問題がある」ということが示されています。対策として、 P値の改良案・代案・補強案の活用を示している文献があります。

これらの方法の中には、対策になっていないものもあります。従来のアプローチの根本的な問題は、データの全体的な違いの評価に、統計量の数値的な違いの評価方法を使っていることにあるためです。抽象的に言うのなら、根本的な問題点は、手段と目的の不一致です。数値的な違いの評価方法に対策しても、対策になっていないです。

そこで目的に合った方法を、筆者自身が納得できる形でまとめてみたのが、このページです。

なお、21世紀の検定ですが、これは学術的な理想形です。実務でも役に立つと良いのですが、「検定ではP値を使う」という認識が多数派になっている組織で使おうとすると、混乱の原因になります。そこで、実務的な方法論は、検定の結果の見方と、見せ方のページにまとめています。

20世紀までは、20世紀までに開発された検定の手法でも、大きな問題にならなかった理由

統計学の教科書にのっているような検定の手法は、パソコンが身近ではなく、紙と鉛筆で統計学の計算をしていた時代に考案されています。この時代は、いわゆるスモールデータしか扱っていないです。

スモールデータの場合、20世紀までに開発された手法だとしても、データの全体的な違いの評価が、ある程度はできます。そのため、21世紀の検定が必要とされて来なかったようです。

20世紀の検定と、21世紀の検定の関係

21世紀の検定は、何もかも新しいのではなく、20世紀の検定に追加する形で体系ができています。

21世紀の検定

20世紀の検定では、p値は、判定のための重要な指標として説明されて来ましたが、この点については、現在は解釈に修正が入っています。本サイトでは、p値は「検定対象の精度」としています。 p値は、「差があるか・ないか」の判断の指標ではなく、その判断をする時に、サンプル数不足を確認するための指標です。

p値

例えば、平均値の差の検定の場合、平均値の差の検定のP値を、平均値の数値的な違いの評価として使うのでしたら、目的と手段が合っています。

「P値は0.05」という判断基準が昔からありますが、この基準は良い目安になります。サンプル数が多いと、P値は限りなく小さくなる性質がありますが、数値的な違いの評価としては、何の問題もないです。数値的な違いの評価をしたいのなら、「サンプル数が多いと、P値は限りなく小さくなる」という性質は、正しいです。

数値的な違いの評価であることを知らずに、数値的な違いの評価を使ってしまっているテーマは、膨大な数になっています。一方、数値的な違いの評価が目的に合った手段になっているテーマもあります。筆者がまず思い当たるのは、ゲージR＆R です。測定システムの評価では、数値的な違いの評価が役に立ちます。

「平均値の数値的な差」というのは、どういうことですか？

o値

「o値（おーち）」というのは、筆者が考案したもので、筆者が付けた名前です。 S言語に類似した言語として、R言語が作られた時に、「Sの前がRだから」という理由で命名されたと聞いたことがあります。「o値」の「o」は、その発想で付けました。

効果量が検定の評価指標として、定着して来ています。効果量は、データの状態を標準化した量で表現します。そのため、例えば、１を基準にして判断します。

o値は効果量が評価しようとしていることを、確率の形にしたものです。たたし、上の表では、「確率」と書いていますが、正確には、「確率もどき」や「準確率」と呼んだ方が良いような指標です。まず、0から1の間の数字になる点が確率と同じです。次に、統計学で確率を求める時と手順が似ているところがありますが、同じではないです。そのため、「確率もどき」や「準確率」と呼んだ方が良さそうですが、回りくどいので、「確率」と便宜的に呼ぶことにしています。

0から1の間の数字になるので、効果量よりも使い勝手が良いです。

o値の計算方法は、考え方が大きく分けて４種類あります。 o値の計算方法のページに４種類の違いをまとめています。

４種類を考えてみたものの、使い勝手が良いのは、寄与率の計算方法を使ったものだということがわかって来ました。「実務向けのデータ分析としては、寄与率を使えば、o値は不要」というのが、筆者の現在の認識です。

寄与率の信頼区間

o値の信頼区間は、「P値の信頼区間」、「効果量の信頼区間」、「o値」の３つのアイディアを併せ持っています。

効果量は優れていますが、効果量だけでは、サンプル数からわかるデータの確度の高さがわかりません。効果量について、データの確度も確認するのなら、効果量の信頼区間を使うのが一案です。そこから一歩進んで、確率の指標として、効果量の信頼区間からわかることを調べるのなら、寄与率の信頼区間が便利です。

サンプル数の少なさから来る判断ミスの防止に使えるのは、寄与率の信頼区間の下側です。

また、従来、p値に期待されていたものの、p値には合わなかった点については、寄与率の信頼区間の下側が代案になります。

21世紀の検定のシリーズ

従来からの個別の検定について、21世紀の検定の視点で、整理したのが以下のページです。

一般的な解説では、相関係数の検定は、後の方です。一方、21世紀の検定としては、相関係数の検定が、検定対象、効果量、寄与率が共通なので一番簡単です。そのため、相関係数の検定から説明しています。

また、一般的な解説では、検定は、平均値の検定の後に、平均値の差の検定です。 21世紀の検定としては、平均値の差の検定の寄与率を応用して、平均値の検定の寄与率を定義しているので、平均値の差の検定の方が前になっています。

順路次は o値の計算方法

杉原データサイエンス事務所によるコンサルティングとセミナー