トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

21世紀の検定

統計学の入門的な解説では、「2つの分布に差があるかどうかを調べたい時は、 平均値の差の検定 を使う」としか書かれていないことが多いです。

統計的な検定と、統計教育の歴史 のページに、やや詳しくまとまっていますが、もう少し進んだ解説だと、 「p値を使った判断には、大きな問題がある」ということが示されています。 対策として、 信頼区間確信区間 の活用を示している文献があります。

しかし、筆者としては、これらの方法は、対策になっていないように考えています。 従来のアプローチの根本的な問題は、データの全体的な違いの評価に、統計量の数値的な違いの評価方法を使っていることにあるためです。 抽象的に言うのなら、根本的な問題点は、手段と目的の不一致です。 数値的な違いの評価方法に対策しても、対策になっていないです。

そこで目的に合った方法を、筆者自身が納得できる形でまとめてみたのが、このページです。

20世紀までは、20世紀までに開発された検定の手法でも、大きな問題にならなかった理由

統計学の教科書にのっているような検定の手法は、パソコンが身近ではなく、紙と鉛筆で統計学の計算をしていた時代に考案されています。 この時代は、いわゆるスモールデータしか扱っていないです。

スモールデータの場合、20世紀までに開発された手法だとしても、データの全体的な違いの評価が、ある程度はできます。 そのため、21世紀の検定が必要とされて来なかったようです。

20世紀の検定と、21世紀の検定の関係

21世紀の検定は、何もかも新しいのではなく、20世紀の検定に追加する形で体系ができています。

21世紀の検定

20世紀の検定では、p値は、判定のための重要な指標として説明されて来ましたが、この点については、現在は解釈に修正が入っています。 本サイトでは、p値は「検定対象の精度」としています。 p値は、「差があるか・ないか」の判断の指標ではなく、その判断する時に、サンプル数不足を確認するための指標です。

「o値(おーち)」というのは、筆者が考案したもので、筆者が付けた名前です。 S言語に類似した言語として、R言語が作られた時に、「Sの前がRだから」という理由で命名されたと聞いたことがあります。 「o値」の「o」は、その発想で付けました。

p値

例えば、 平均値の差の検定 の場合、平均値の差の検定のP値を、平均値の数値的な違いの評価として使うのでしたら、目的と手段が合っています

「P値は0.05」という判断基準が昔からありますが、この基準は良い目安になります。 サンプル数が多いと、P値は限りなく小さくなる性質がありますが、数値的な違いの評価としては、何の問題もないです。 数値的な違いの評価をしたいのなら、「サンプル数が多いと、P値は限りなく小さくなる」という性質は、正しいです。

数値的な違いの評価であることを知らずに、数値的な違いの評価を使ってしまっているテーマは、膨大な数になっています。 一方、数値的な違いの評価が目的に合った手段になっているテーマもあります。 筆者がまず思い当たるのは、 ゲージR&R です。 測定システムの評価では、数値的な違いの評価が役に立ちます。

「平均値の数値的な差」というのは、どういうことですか?

o値とは

効果量 が検定の評価指標として、定着して来ています。

効果量は、データの状態を 標準化 した量で表現します。そのため、例えば、1を基準にして判断します。

o値は効果量が評価しようとしていることを、確率の形にしたものです。 たたし、上の表では、「確率」と書いていますが、正確には、「確率もどき」や「準確率」と呼んだ方が良いような指標です。 まず、0から1の間の数字になる点が確率と同じです。 次に、統計学で確率を求める時と手順が似ているところがありますが、同じではないです。 そのため、「確率もどき」や「準確率」と呼んだ方が良さそうですが、回りくどいので、「確率」と便宜的に呼ぶことにしています。

そのため、0から1の間の数字になるので、効果量よりも使い勝手が良いです。

o値の計算方法は、考え方が大きく分けて4つあります。 o値の計算方法 のページに4種類の違いをまとめています。

o値の判断基準

o値の場合、手法や研究テーマによって違うとは思いますが、例えば、「o値は0.5以下(50%以下)」が目安になります。 0.05ではないです。

0.50.05の違い」という風に見ると、単なる基準の違いのようにも見えますが、この違いは、o値の意味の違いが理由になっています。 例えば、 平均値の差の検定のo値B では、分布が重なっているところの面積の割合をo値にしています。 分野に関係なく、誰もが「差がある」という印象を持ちやすい基準としては、「半分(0.5)違う」というあたりと思いますので、「0.5」という数字が出て来ています。
test of diffence of distribution

o値を使う時の、p値の意味合い

例えば、上の例のように 平均値の差の検定のo値B をするのなら、平均値が数値的に区別できていることは検定の前提になります。 その前提の確認が目的なら、 平均値の差の検定 は目的と手段が合っています。

o値の信頼区間

o値の信頼区間は、「P値の信頼区間」、「効果量の信頼区間」、「o値」の3つのアイディアを併せ持っています。

効果量は優れていますが、効果量だけでは、サンプル数からわかるデータの確度の高さがわかりません。 効果量について、データの確度も確認するのなら、効果量の信頼区間を使うのが一案です。 そこから一歩進んで、確率の指標として、効果量の信頼区間からわかることを調べるのなら、o値の信頼区間が便利です。

サンプル数の少なさから来る判断ミスの防止に使えるのは、o値の信頼区間の上側です。

また、従来、p値に期待されていたものの、p値には合わなかった点については、o値の信頼区間の上側が代案になります。




順路 次は o値の計算方法

データサイエンス教室