検定 では、データのグループに 正規分布 などの分布を当てはめることで、 「このデータは、このグループのデータではない」という判定ができるようにしています。
とても便利な理論なのですが、弱点もあります。 その弱点は、第1種の誤り(第1種の過誤)と、第2種の誤り(第2種の過誤)の2種類があります。
正規分布 に限らず、検定で使われる分布は、無限に裾野が広がっている形をしています。 裾野というのは、確率的に発生しにくい領域です。
検定では、この裾野の領域にあるデータは、「このグループのデータではない可能性がある」と考えることで、判定をします。
この判定に使う基準の確率は、有意水準やα(アルファ)と呼ばれています。
無限に裾野が広がる分布を使いますので、 有意水準を0に設定することはできません。 一般的には、5%(0.05)を使うことが多いです。
この5%の意味は、「このグループのデータなのに、『このグループではない』、と、間違って判定してしまう確率が5%ある」という意味になります。 このような間違いが、第1種の誤りです。
確率が非常に低く滅多に起きないことでも、何度も繰り返すと、1回くらいは起きることがあります。
部分毎に分けて、 検定 を繰り返すことで、その中の1回は「有意性あり」となることがあり、結論が「有意」となることを、多重性の問題と言います。 多重性の問題に対策している検定の方法もあります。
なお、多重比較の方法が紹介される時は、 分散分析 の欠点として、群間の差がどこかにあることはわかっても、どこにあるのかがわからない点を挙げ、 どこにあるのかを探す方法として、多重に検定することがあるという流れで解説することが一般的なようです。
一方、筆者が 実験データの解析 として、分散分析を教わった時は、どこに差があるのかは要因効果図という群ごとの平均値のグラフで確認するようになっていましたので、 多重比較の話にはなりませんでした。 品質学 の実務では、統計的な計算はあくまで参考で、実際の測定値の表れ方や、測定値の背後の知識なども含めて判断して行かないと危ないので、 こういった教え方になっていたようです。
例えば、1組の平均点が70点で、2組の平均点が80点だったとします。
1組のAさんが78点でした。 2組のBさんは73点でした。
1組のAさんを正しく分類するために、「79点未満なら1組、79点以上なら2組」という判定基準を作った場合、 Bさんは1組と判定されてしまいます。 このような間違いが、第2種の誤りです。
ちなみに、1組のCさんが81点だったために、「2組」と判定されてしまう間違いは、第1種の誤りになります。
検定をする時は、注目しているグループの分布のことばかり考えがちですが、 第1種の誤りの確率を少なくすることを優先すると、第2種の誤りの確率が高くなります。
第1種の誤りの確率はαと呼ばれることがありますが、第2種の誤りの確率はβ(ベータ)と呼ばれます。
βが小さくなると、(1−β)は大きくなります。
(1−β)は「検出力」と呼ばれます。 検出力が高いということは、第2種の誤りが起きにくいということになります。 検出力は、「陽性のものは、陽性と正しく判定したい」と言った目的がある時の、指標になります。
製造業の 品質管理 、等で合格基準(しきい値・閾値)を厳しくして、不良品の疑いのあるものを積極的に不合格と判定すると、 良品を「不合格」として、捨ててしまう確率が上がります。 これは、第1種の誤りが増えていることになります。 そのため、合格基準はできるだけ甘くしたいです。
一方で、合格基準が甘くなると、不良品を「合格」と判定して顧客に届けてしまう確率が上がります。 これは、第2種の誤りが増えていることになります。
消費者の立場では、合格基準は厳しいのが当たり前と思いますが、 合格基準が厳しいことによって、良品を大量に捨ててしまうようなことが起こると、 経営が成り立たなくなって来ますし、環境にも良くないです。
厳しい合格基準でも、歩留100%になるようなものづくりができれば、問題はないのですが、 そうはなかなかならないので、いつも2種類の誤りのバランスは考える必要があります。
「入門統計学 検定から多変量解析・実験計画法・ベイズ統計学まで」 栗原伸一 著 オーム社 2021
入門書ですが、扱っている内容が幅広く、
一般化線形混合モデル
や
品質工学
のコンパクトな説明もあります。
第2版で、多重比較法の解説を増したそうです。
実務で使う統計学はそんなに難しいものが必要ない、という認識を著者がお持ちです。
筆者の実務の中で、字引のようにして使えるような内容がたくさん詰まっている感じの本です。
多重性の問題に対策している方法として、Bonferroni法(有意水準調整型)、Tukey法(分布調整型)、Scheffe法(検定統計量調整型)を紹介しています。
ただ、これらの方法を多重に使う使い方ができるため、多重性の問題は、これらの方法を使っていれば心配ない訳ではないそうです。
「基礎統計学」 鈴木良雄・廣津信義 著 講談社 2012
栄養科学のシリーズの一冊だからだと思いますが、リスクの分析をするための
クロス集計
に使われる統計学の話があります。
多重比較と分散分析の両方をすると、これが多重性になるので、併用はすべきでないとしています。
多重比較法としては、パラメトリックとして、テューキー法、フィッシャーのLSD法、ダネット法、ウィリアムズ法、
ノンパラメトリックとして、スティール-ドゥアス法、スティール法、シャーリー-ウィリアムズ法を挙げています。
順路
次は
平均値の差の検定