検定 の解説書では、丁寧な解説の場合、「母分散が既知の場合はz検定、未知の場合はt検定。実務では未知の場合が普通」といった説明があってから、t検定の話ばかりになっていることが一番多いかもしれません。 簡単な解説の場合は、z検定の話は省略されます。
その流れなので、入門的な検定として紹介される、平均値の検定や、平均値の差の検定は、t検定が中心です。 しかし、他の検定になると、z検定の話がけっこう出て来ます。
このページは、「z検定とt検定の違い」ではなく、両者の共通点が、ポイントです。 筆者の知る限りでは、両者が共通点として持っていることを論点にしている解説書はないのですが、このページでは、重要なポイントです。
z検定やt検定では、検定統計量が、
の形をしています。
分母は標準偏差ではなく、 標準誤差 です。
この式で、分母を標準偏差に置き換えると、 標準化 と同じ計算式になります。 標準化は、 特徴量エンジニアリング では初歩的な方法なので、z検定は知らなくても、標準化は知っている人も、いるかもしれません。
この検定統計量は、(評価したい値 - 平均値)が、標準誤差の何倍あるのかを表現しています。 これによって、z検定では、評価したい値が、どのくらい中心から離れているのかを、見ようとします。
統計量の分布 のページで詳しめに説明していますが、 標準誤差 を使うと、平均値の確からしさがわかります。
そのため、z検定とt検定の共通点が評価しているのは、「数字の確からしさを考慮した時に、評価したい値は、平均値と同じ数字と言えるのか?」ということになっています。 (「平均値の数値的な差」というのは、どういうことですか?)
z検定は、一面においては、t検定よりもマイナーで、「使ったことがない」という人も多いような方法です。 一方で、z検定は、応用面で、t検定よりもメジャーです。
標準誤差は、標準偏差をサンプル数の平方根で求まります。 標準偏差は、分散の平方根で求まります。
z検定やt検定では、「平均値」や「標準偏差」を使います。 この計算に使うのは、正規分布の平均値や分散の計算式です。
正規分布以外では、平均値や分散の計算式は違うものになります。
比率の差の検定では、二項分布に従う量の平均値と分散を計算すると、その後の手順は、z検定と同じになります。 ノンパラメトリック検定 でも、同様にして開発されたものがあります。
z検定で評価できるのは、「数字の確からしさを考慮した時に、評価したい値は、平均値と同じ数字と言えるのか?」というものです。
同じ数字かどうかを評価する方法としては、これで良いのですが、「データ全体のばらつきをを考慮した時に、評価したい値は、平均値と同じ数字と言えるのか?」ということは、評価できません。
この評価をしたいのなら、「標準誤差」としていたところを「標準偏差」に変えるとできるようになります。
正規分布の差の検定1 は、この考え方でできています。
比率分布の違いの検定1 は、z検定に対して、二項分布の平均値と標準偏差を適用するアイディアと、標準誤差を標準偏差に変えるアイディアの2つからできています。
母分散が既知の場合はz検定、未知の場合はt検定、という使い分けです。 しかし、実際問題として、ある程度以上のサンプル数になると、t分布と正規分布は同じとみなせるようになるので、その状況では、両者を特に区別する必要がなくなります。 区別する必要がないのなら、正規分布の方が扱いやすいです。
もうひとつの実際問題として、「サンプル数が少ない時は、検定統計量に対応する確率が、手計算でも求められるものの、多くなると無理」という問題があります。
こうしたことがあるため、
ノンパラメトリック検定
の方法を作る時は、
・サンプル数が少ない時は、確率を計算する。実務向けとして、分布表を用意してそれを参照する使い方にする。
・サンプル数が多い時は、正規分布を使うz検定に帰着させて、確率を計算する。
という形で、方法が開発されて来たようです。
順路 次は 分布の違いの検定