統計学の入門的な解説では、「平均値に差があるかどうかを調べたい時は、 平均値の差の検定 を使う」としか書かれていないことが多いです。
もう少し進んだ解説だと、 「p値を使った判断には、大きな問題がある」ということが示されています。 問題の解決策や代替案も示されているのですが、筆者の印象だと、シンプルな問題が難しい問題になっているように見受けられます。
そこで「21世紀の検定」として、検定の手法の使い方を、筆者自身が納得できる形でまとめてみたのが、このページです。
基本的な考え方として、「平均値の差を調べたい時に、平均値の差の検定を使う」とするのは、従来と同じです。
違うのは、「平均値の差の検定は、本当に調べたいことの、事前評価」という位置付けにする点です。
統計学の教科書にのっているような検定の手法は、パソコンが身近ではなく、紙と鉛筆で統計学の計算をしていた時代に考案されています。 この時代は、いわゆるスモールデータしか扱わないので、問題が起きませんでした。
20世紀末にパソコンが普及して、サンプル数が30を超えるような規模の計算が簡単にできるようになると、大きな問題になってきます。
平均値の差の検定 の手法は、2つのグループのそれぞれの平均値が、数値として区別できるかどうか調べる方法として作られています。 スモールデータの時は、「数値として区別できる = 平均値に差があると言える」と考えても、特に問題がなかったのですが、 21世紀以降は、本来の目的を意識する必要があります。
平均値の差の検定 を、事前評価として使います。
p値は、平均値の差があるかどうかの判断基準ではなく、この次の評価ができるかどうかの判断基準として使います。 「p値は0.05」という判断基準が昔からありますが、この基準は21世紀以降も目安として良いと、筆者は考えています。
なお、平均値の差の検定のp値を、事前評価として使うのでしたら、「nが大きいと限りなく小さくなる」といった性質は、何の問題もないです。
「平均値に差があると言えるのか」という評価は、 正規分布の差の検定 が適切です。
この手法がやっていることは、「2つのグループがどれくらい分離しているか?」ということを調べています。 扱っているテーマによって、意味のある分離の割合には違いがあるので、この手法のp値は、絶対的な判断基準としては使えないです。 そのp値の違いによる、経済的な効果などと合わせて判断する基準になります。
分野に関係なく、誰もが「差がある」という印象を持ちやすい基準としては、正規分布の差の検定2で、「0.5以下(50%以下)」あたりと思います。 「半分」を目安とするのは、日常的によく使うためです。
正規分布の差の検定 はあくまで2段階目です。 正規分布の差の検定 は、2つの平均値が数値的に区別できていることが前提になっているためです。
平均値の差以外の評価でも、基本的な考え方が上記と同じです。
2つ以上のグループ平均値の違いの検定の手順は 数値的に区別できるかどうかの調査が 分散分析 で、平均値の違いの評価は、 平方和分析 を使います。
ばらつきの違いの検定の手順は 数値的に区別できるかどうかの調査が 分散の比の検定 で、ばらつきの違いの評価は、 正規分布のばらつきの違いの検定 を使います。
比率の違いの検定の手順は 数値的に区別できるかどうかの調査が 比率の差の検定 で、比率の違いの評価は、 比率分布の違いの検定 を使います。
上記は、統計学的な方法の部分だけです。 実務で扱うデータでは、必要なチェックが他にあります。
検定に限ったことではないですが、統計学の手法を扱う時は、ヒストグラムや箱ひげ図を使って、2つのグループのデータを視覚的に確認して、 視覚的に見えていることと、計算結果を合わせて結論を出すようにしないと、おかしな結論になってしまうことがあります。
信頼区間に最小値がある統計学(統計学の不可能性) がありますが、有効数字や分解能の観点で、「差がない」と言えるものが、統計学の計算では「差がある」となることがあります。 差の意味で検定を補強 します。
順路
次は
推定