トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

検定

平均値 を比べて、「こっちが高い」と結論を出すのは、よくある話です。 しかし、データが大きくばらついている場合、 「この平均値の差は、偶然かも。。。」という疑いが出て来ます。

分布のグラフ を見ることでも確認できますが、 サンプルが少ない時や、差が微妙な時は、グラフの見た目ではよくわからない時もあります。

こういう時に、 統計学 を使って、差の有無を調べる方法は、「検定」と呼ばれています。 「検定」の考え方は、 異常値の判定 でも役に立ちます。

検定の基本的な考え方(有意水準とP値)

検定

検定の方法は、平均値や分散等、いろいろな統計量に対してあります。 途中で使う分布が違ったりするものの、 どの統計量の話も、最終的には図のような形にして検定します。

左の場合のように、検定したい値が、比べたい集団から明らかに離れていれば、その値は、集団とは異なるものと考えられます。 一方、右の場合のように、集団の中に入っていれば、その値が、集団の仲間と考えられます。

検定では、「異なる」や「違う」とは言わずに、「有意な差がある」と言います。 有意な差があるかどうかの基準を、有意水準といいます。

集団との関係の尺度が、P値(ピーチ)です。 図の左の場合は、P値は小さくなります。

一般的には、有意水準は0.05(5%)を目安にすることが多いです。
「P値が0.05よりも小さい」 
= 「考えにくいことが起きている。」 
= 「有意な差がある。」
、と考えます。

検定によるデータマイニング

異常状態の工程解析 では、「良品と不良品の違いが表われている変数は何か?」、といった調査があります。

現代では、 表計算 のソフトの組み込み関数でも、簡単にP値を計算できます。 そのため、疑いのある変数が100個くらいあっても、すべての変数について、片っ端からP値を計算するのは簡単です。

片っ端からP値を計算したら、P値の小さい順が、不良品に影響のある可能性の順になります。 P値の小さい順が、調査の優先順になります。

「合わせ技」と言われたりしますが、ある変数のある範囲の中でで、さらに違う変数がある範囲になった時に、 不良が続発したりする可能性もあります。 このように、変数が階層構造を持って複雑になっている時に、 自動的に可能性のある変数を探す方法が、 決定木 です。

ノンパラメトリック検定

検定をする時に、正規分布(釣鐘型・ベル型の分布)を前提にするのが、「パラメトリック検定」です。 筆者の経験の範囲では、実用上は、パラメトリック検定で用が足りる場合が多いです。 正規分布による近似は、かなり強力です。

とはいえ、正規分布を前提にしない検定方法も考案されていて、ノンパラメトリック検定と呼ばれています。

ノンパラメトリック検定では、中央値に対するプラスとマイナスの分布や、 大きさの順位、といったものを使います。 「中央値は意味がありそうだが、この分布の平均値は意味がなさそう。」、 「大きさの順位程度ならわかるが、具体的な量のデータまでは出せない。( アンケート のデータ、等)」、と言った場合に頼りになる方法です。

古典的な検定の性質

20世紀の時点で、統計学の教科書にのっている方法を、ここでは「古典的な検定」と呼ぶことにします。 大変な数があるので、すべてに対して当てはまるのかは、わかりませんが、 少なくとも、 平均値の差の検定分散の比の検定比率の差の検定 の3つについては、困った性質があります。

ここで使うp値は、「調べたいことの明確さ」と「サンプル数が多いことによる明確さ」の2つの要因で変わります。 そのため、サンプル数が多くなってくると、その要因だけでp値が判定値を超えることが起きます。 そして、それが起こると、調べたいことの方が調べられる方法でなくなります。

21世紀の検定

上記や ビッグデータの統計学と落とし穴 にあるように、ビッグデータに対して、20世紀までに開発された検定の手法を使おうとすると、調べたいことが調べられないです。 また、スモールデータだとしても、20世紀に開発された検定の手法には、科学的な研究手段として、適切ではない点があります。

21世紀の検定 のページに詳しくまとめましたが、例えば、「平均値の差の検定は、平均値に差があるかどうかを調べる方法ではなく、 『平均値に差があるかどうかを調べられるか?』を調べる方法」という考え方をします。





参考文献

統計解析がわかる」 涌井良幸・涌井貞美 技術評論社 2020
検定の本は、数えきれないほどあります。 筆者が見たことがある中で、初学者向けでも、内容がきっちり書かれている本はあまりないのですが、この本は良書と思います。


瀕死の統計学を救え! 有意性検定から「仮説が正しい確率」へ」 豊田秀樹 著 朝倉書店 2020
有意性検定の問題点がいろいろ書かれていますが、p値がサンプル数で変わってしまう点については、何度も力説されています。 有意性検定にしても、その問題点の解決策として語られることの多い検出力の分析にしても、サンプル数に左右されたり、 サンプル数を最初に決めるという行為が、科学的な研究のプロセスになじまないことの説明もあります。
この本では、従来のp値に代わる指標として、研究仮説が正しい確率のphcというものが提案されています。 phcは、ベイズ統計の場合、平均値の差の検定では、平均値の差の分布が事後分布として計算されます。 その分布に対して、基準点を定めて、例えば、基準点よりも60%が上回っていれば、「60%の確率で仮説が正しい・正しくない」といった議論ができるようになります。また、基準点を段階的に変えてphcを求めることで、phc曲線を求め、これを使って考察する方法もあります。
仮説が正しい確率というのは、p値が限りなく0になる状況と、実務的に意味のある平均値の差が必ずしも一致しないことに対して、 ベイズ統計なら平均値の分布というものが計算できることに着目して考案された方法のようです。
なお、著者が提案している仮説が正しい確率というのは、実務的に意味のある平均値の差かどうかをチェックするという方法にはなっていますが、 サンプル数が多いことによるミスリードの問題の対策にはなっていないように、筆者は考えています。 (筆者としては、21世紀の検定の方が、やりたいことに合っています。)
論文に書かれている実験を再現できない論文の割合が非常に高いことと、有意性検定の問題点を結び付けた話もあるのですが、 この点については、複雑で大きなものの一部を切り出して、切り出したものに対して法則を見つけようとするという方法論の難しさと思いますので、 必ずしも有意性検定の話ではないとは思いました。 また、この点については、この本で示される代替案で解決するものでもありません。 この本の内容ではないですが、 データサイエンス として、データ自体の内容や質を考えることは、改めて重要と思いました。


はじめての統計データ分析 ベイズ的<ポストp値時代>の統計学」 豊田秀樹 著 朝倉書店 2016
同著者の上記の本よりも、平易な文章で説明されています。
「はじめての」となっていますが、中級以上の本、と思います。 ベイズ統計 の本としては珍しく、分布の話から始まります。 この本は、研究結果として「差がある」という事を言う時の、ベイズの使い方の話が中心です。




順路 次は 検定による判断

Tweet データサイエンス教室