トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

21世紀の検定

統計学の入門的な解説では、「平均値に差があるかどうかを調べたい時は、 平均値の差の検定 を使う」としか書かれていないことが多いです。

もう少し進んだ解説だと、 「p値を使った判断には、大きな問題がある」ということが示されています。 対策として、 信頼区間や確信区間 を使う方法や、確信区間のベースになっている ベイズ統計 的なアプローチが提案されていることがありますが、 筆者としては、これらの方法は、対策になっていないように考えています。 従来のアプローチの根本的な問題は、「分布に違いがあると言えるかどうかの調査を、便宜的に平均値の差を調べる調査にしただけなのに、平均値の差を調べることが目的になってしまった。」という点だからです。 平均値の差の調べ方に対して対策しても、対策になっていないです。

そこで「21世紀の検定」として、検定の手法の使い方を、筆者自身が納得できる形でまとめてみたのが、このページです。

基本的な考え方として、「平均値の差を調べたい時に、平均値の差の検定を使う」とするのは、従来と同じです。 違うのは、「平均値の差の検定は、本当に調べたいことの、事前評価」という位置付けにする点です。
21世紀の検定<

20世紀までは、20世紀までに開発された検定の手法でも、大きな問題にならなかった理由

統計学の教科書にのっているような検定の手法は、パソコンが身近ではなく、紙と鉛筆で統計学の計算をしていた時代に考案されています。 この時代は、いわゆるスモールデータしか扱わないので、問題が起きませんでした。

20世紀末にパソコンが普及して、サンプル数が30を超えるような規模の計算が簡単にできるようになると、大きな問題になってきます。

平均値の差の検定の手順(21世紀版)

平均値の差の検定 の手法は、2つのグループのそれぞれの平均値が、数値として区別できるかどうか調べる方法として作られています。 スモールデータの時は、「数値として区別できる = 平均値に差があると言える」と考えても、特に問題がなかったのですが、 21世紀以降は、本来の目的を意識する必要があります。

事前評価

平均値の差の検定 を、事前評価として使います。

p値は、平均値の差があるかどうかの判断基準ではなく、この次の評価ができるかどうかの判断基準として使います。 「p値は0.05」という判断基準が昔からありますが、この基準は21世紀以降も目安として良いと、筆者は考えています。

なお、平均値の差の検定のp値を、事前評価として使うのでしたら、「nが大きいと限りなく小さくなる」といった性質は、何の問題もないです。

「平均値に差がある」と言うための方法

「平均値に差があると言えるのか」という評価は、 正規分布の差の検定 が適切です。

この手法では、「2つのグループがどれくらい分離しているか?」ということを調べています。 扱っているテーマによって、意味のある分離の割合には違いがあるので、この手法のp値は、絶対的な判断基準としては使えないです。 そのp値の違いによる、経済的な効果などと合わせて判断する基準になります。

分野に関係なく、誰もが「差がある」という印象を持ちやすい基準としては、正規分布の差の検定2で、「0.5以下(50%以下)」あたりと思います。 「半分」を目安とするのは、日常的によく使うためです。

正規分布の差の検定 はあくまで2段階目です。 正規分布の差の検定 は、2つの平均値が数値的に区別できていることが前提になっているためです。

その他の違いの検定の手順(21世紀版)

平均値の差以外の評価でも、基本的な考え方が上記と同じです。

2つ以上のグループの、平均値の違いの検定の手順は 数値的に区別できるかどうかの調査が 分散分析 で、平均値の違いの評価は、 平方和分析 を使います。

2つのグループでも、サンプルに対応がある場合の、平均値の違いの検定の手順は 数値的に区別できるかどうかの調査が 対応のある検定 で、平均値の違いの評価は、 分布のズレの検定 を使います。

ばらつきの違いの検定の手順は 数値的に区別できるかどうかの調査が 分散の比の検定 で、ばらつきの違いの評価は、 正規分布のばらつきの違いの検定 を使います。

比率の違いの検定の手順は 数値的に区別できるかどうかの調査が 比率の差の検定 で、比率の違いの評価は、 比率分布の違いの検定 を使います。

統計学以外の観点による補助的な分析

上記は、統計学的な方法の部分だけです。 実務で扱うデータでは、必要なチェックが他にあります。

グラフによるチェック

検定に限ったことではないですが、統計学の手法を扱う時は、ヒストグラムや箱ひげ図を使って、2つのグループのデータを視覚的に確認して、 視覚的に見えていることと、計算結果を合わせて結論を出すようにしないと、おかしな結論になってしまうことがあります。

有効数字や分解能のチェック

信頼区間に最小値がある統計学(統計学の不可能性) がありますが、有効数字や分解能の観点で、「差がない」と言えるものが、統計学の計算では「差がある」となることがあります。 差の意味で検定を補強 します。



順路 次は 推定

Tweet データサイエンス教室