平均値 を比べて、「こっちが高い」と結論を出すのは、よくある話です。 しかし、データが大きくばらついている場合、 「この平均値の差は、偶然かも。。。」という疑いが出て来ます。
分布のグラフ を見ることでも確認できますが、 サンプルが少ない時や、差が微妙な時は、グラフの見た目ではよくわからない時もあります。
こういう時に、 統計学 を使って、差の有無を調べる方法は、「検定」と呼ばれています。 「検定」の考え方は、 異常値の判定 でも役に立ちます。
検定は、
検定の方法は、平均値や分散等、いろいろな統計量に対してあります。 途中で使う分布が違ったりするものの、 どの統計量の話も、最終的には図のような形にして検定します。
左の場合のように、検定したい値が、比べたい集団から明らかに離れていれば、その値は、集団とは異なるものと考えられます。 一方、右の場合のように、集団の中に入っていれば、その値が、集団の仲間と考えられます。
検定では、「異なる」や「違う」とは言わずに、「有意な差がある」と言います。 有意な差があるかどうかの基準を、有意水準といいます。
集団との関係の尺度が、P値(ピーチ)です。 図の左の場合は、P値は小さくなります。
一般的には、有意水準は0.05(5%)を目安にすることが多いです。
「P値が0.05よりも小さい」
= 「考えにくいことが起きている。」
= 「有意な差がある。」
、と考えます。
異常状態の工程解析 では、「良品と不良品の違いが表われている変数は何か?」、といった調査があります。
現代では、 表計算 のソフトの組み込み関数でも、簡単にP値を計算できます。 そのため、疑いのある変数が100個くらいあっても、すべての変数について、片っ端からP値を計算するのは簡単です。
片っ端からP値を計算したら、P値の小さい順が、不良品に影響のある可能性の順になります。 P値の小さい順が、調査の優先順になります。
「合わせ技」と言われたりしますが、ある変数のある範囲の中でで、さらに違う変数がある範囲になった時に、 不良が続発したりする可能性もあります。 このように、変数が階層構造を持って複雑になっている時に、 自動的に可能性のある変数を探す方法が、 決定木 です。
検定をする時に、正規分布(釣鐘型・ベル型の分布)を前提にするのが、「パラメトリック検定」です。 筆者の経験の範囲では、実用上は、パラメトリック検定で用が足りる場合が多いです。 正規分布による近似は、かなり強力です。
とはいえ、正規分布を前提にしない検定方法も考案されていて、ノンパラメトリック検定と呼ばれています。
ノンパラメトリック検定では、中央値に対するプラスとマイナスの分布や、 大きさの順位、といったものを使います。 「中央値は意味がありそうだが、この分布の平均値は意味がなさそう。」、 「大きさの順位程度ならわかるが、具体的な量のデータまでは出せない。( アンケート のデータ、等)」、と言った場合に頼りになる方法です。
20世紀の時点で、統計学の教科書にのっている方法を、ここでは「古典的な検定」と呼ぶことにします。 大変な数があるので、すべてに対して当てはまるのかを、筆者は調べ切れていないのですが、 2つのグループの違いを調べるために使う、 平均値の差の検定 、 分散の比の検定 、 比率の差の検定 の3つについては、困った性質があることを確認しています。
ここで使うp値には、「調べたいことの明確さ」と「サンプル数が多いことによる明確さ」の2つの要因で変わります。 そのため、サンプル数が多くなってくると、その要因だけでp値が判定値を超えることが起きます。 そして、それが起こると、調べたいことの方が調べられる方法でなくなります。
上記や ビッグデータの統計学と落とし穴 にあるように、ビッグデータに対して、20世紀までに開発された検定の手法を使おうとすると、調べたいことが調べられないです。 また、スモールデータだとしても、20世紀に開発された検定の手法には、科学的な研究手段として、適切ではない点があります。
21世紀の検定 のページに詳しくまとめましたが、例えば、「平均値の差の検定は、平均値に差があるかどうかを調べる方法ではなく、 『平均値に差があるかどうかを調べられるか?』を調べる方法」という考え方をします。
「瀕死の統計学を救え! 有意性検定から「仮説が正しい確率」へ」 豊田秀樹 著 朝倉書店 2020
この本は、有意性検定が禁止になる理由の説明と、その代替案になるベイズ統計を元にしたデータの扱い方の説明で半々になっています。
2019年にアメリカ統計学会は、「有意性検定は禁止」というメッセージを出したそうです。
有意性検定が禁止になる理由はいろいろ書かれていますが、p値がサンプル数で変わってしまう点については、何度も力説されています
有意性検定にしても、その問題点の解決策として語られることの多い検出力の分析にしても、サンプル数に左右されたり、
サンプル数を最初に決めるという行為が、科学的な研究のプロセスになじまないことの説明もあります。
論文に書かれている実験を再現できない論文の割合が非常に高いことと、有意性検定の問題点を結び付けた話もあるのですが、
この点については、複雑で大きなものの一部を切り出して、切り出したものに対して法則を見つけようとするという方法論の難しさと思いますので、
必ずしも有意性検定の話ではないとは思いました。
また、この点については、この本で示される代替案で解決するものでもありません。
この本の内容ではないですが、
データサイエンス
として、データ自体の内容や質を考えることは、改めて重要と思いました。
「統計解析がわかる」 涌井良幸・涌井貞美 技術評論社 2020
検定の本は、数えきれないほどあります。
筆者が見たことがある中で、初学者向けでも、内容がきっちり書かれている本はあまりないのですが、この本は良書と思います。
順路
次は
第1種と第2種の誤り