トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

検定

平均値 を比べて、「こっちが高い」と結論を出すのは、よくある話です。 しかし、データが大きくばらついている場合、 「この平均値の差は、偶然かも。。。」という疑いが出て来ます。

分布のグラフ を見ることでも確認できますが、 サンプルが少ない時や、差が微妙な時は、グラフの見た目ではよくわからない時もあります。

こういう時に、 統計学 を使って、差の有無を調べる方法は、「検定」と呼ばれています。 「検定」の考え方は、 異常値の判定 でも役に立ちます。

検定は、

検定の基本的な考え方(有意水準とP値)

検定

検定の方法は、平均値や分散等、いろいろな統計量に対してあります。 途中で使う分布が違ったりするものの、 どの統計量の話も、最終的には図のような形にして検定します。

左の場合のように、検定したい値が、比べたい集団から明らかに離れていれば、その値は、集団とは異なるものと考えられます。 一方、右の場合のように、集団の中に入っていれば、その値が、集団の仲間と考えられます。

検定では、「異なる」や「違う」とは言わずに、「有意な差がある」と言います。 有意な差があるかどうかの基準を、有意水準といいます。

集団との関係の尺度が、P値(ピーチ)です。 図の左の場合は、P値は小さくなります。

一般的には、有意水準は0.05(5%)を目安にすることが多いです。
「P値が0.05よりも小さい」 
= 「考えにくいことが起きている。」 
= 「有意な差がある。」
、と考えます。

サンプル数が多い場合の検定(P値の性質)

P値には、「サンプル数が多いと、小さな値になりやすい。」という性質があります。 そのため、サンプル数が多いと、「有意な差がある」という結論が出やすいことになります。

実用上は意味のない程度の小さな差についても、サンプル数が多いと、「有意である」という結論になりやすくなります。

サンプル数が多い場合に検定を使う場合には、統計学的には有意であっても、 実用上も意味があると言えるかどうかの確認が必要です。 サンプル数が非常に多い場合には、限りなくゼロに近いようなP値になって初めて、実用上は意味のある差になっていることもあります。


ビッグデータの統計学と落とし穴

検定によるデータマイニング

異常状態の工程解析 では、「良品と不良品の違いが表われている変数は何か?」、といった調査があります。

現代では、 表計算 のソフトの組み込み関数でも、簡単にP値を計算できます。 そのため、疑いのある変数が100個くらいあっても、すべての変数について、片っ端からP値を計算するのは簡単です。

片っ端からP値を計算したら、P値の小さい順が、不良品に影響のある可能性の順になります。 P値の小さい順が、調査の優先順になります。

「合わせ技」と言われたりしますが、ある変数のある範囲の中でで、さらに違う変数がある範囲になった時に、 不良が続発したりする可能性もあります。 このように、変数が階層構造を持って複雑になっている時に、 自動的に可能性のある変数を探す方法が、 決定木 です。

P値を絶対評価ではなく、相対評価の指標として使う

データ・手法・尺度の独り歩き もありますが、P値という尺度も独り歩きしがちな尺度です。

P値の意味や使い方について、統計学の中では論争があったりもするようです。 この論争は、P値を絶対評価の指標としていることと、統計学の前提をいろいろと置いているところから来ているように、筆者は考えています。

P値を相対評価の指標としてデータマイニングに使う使い方を、上記で書きましたが、筆者としては、相対評価の指標として使うか、 参考値程度に使うかのどちらかと考えるのが、実用的と思います。 いずれにしても、P値だけで結論は出さずに、グラフと一緒に使って、総合的に判断して行きます。

P値が絶対評価の指標として使えない理由は、以下のようなものがあります。

ノンパラメトリック検定

検定をする時に、正規分布(釣鐘型・ベル型の分布)を前提にするのが、「パラメトリック検定」です。 筆者の経験の範囲では、実用上は、パラメトリック検定で用が足りる場合が多いです。 正規分布による近似は、かなり強力です。

とはいえ、正規分布を前提にしない検定方法も考案されていて、ノンパラメトリック検定と呼ばれています。

ノンパラメトリック検定では、中央値に対するプラスとマイナスの分布や、 大きさの順位、といったものを使います。 「中央値は意味がありそうだが、この分布の平均値は意味がなさそう。」、 「大きさの順位程度ならわかるが、具体的な量のデータまでは出せない。( アンケート のデータ、等)」、と言った場合に頼りになる方法です。



独立性の検定

比率の差の検定



順路 次は 第1種と第2種の誤り

Tweet データサイエンス教室