トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

データサイエンス教室

検定

平均値 を比べて、「こっちが高い」と結論を出すのは、よくある話です。 しかし、データが大きくばらついている場合、 「この平均値の差は、偶然かも。。。」という疑いが出て来ます。

分布のグラフ を見ることでも確認できますが、 サンプルが少ない時や、差が微妙な時は、グラフの見た目ではよくわからない時もあります。

こういう時に、 統計学 を使って、差の有無を調べる方法は、「検定」と呼ばれています。 「検定」の考え方は、 異常値の判定 でも役に立ちます。

検定は、

検定の基本的な考え方(有意水準とP値)

検定

検定の方法は、平均値や分散等、いろいろな統計量に対してあります。 途中で使う分布が違ったりするものの、 どの統計量の話も、最終的には図のような形にして検定します。

左の場合のように、検定したい値が、比べたい集団から明らかに離れていれば、その値は、集団とは異なるものと考えられます。 一方、右の場合のように、集団の中に入っていれば、その値が、集団の仲間と考えられます。

検定では、「異なる」や「違う」とは言わずに、「有意な差がある」と言います。 有意な差があるかどうかの基準を、有意水準といいます。

集団との関係の尺度が、P値(ピーチ)です。 図の左の場合は、P値は小さくなります。

一般的には、有意水準は0.05(5%)を目安にすることが多いです。
「P値が0.05よりも小さい」 
= 「考えにくいことが起きている。」 
= 「有意な差がある。」
、と考えます。

サンプル数が多い場合の検定(P値の性質)

P値には、「サンプル数が多いと、小さな値になりやすい。」という性質があります。 そのため、サンプル数が多いと、「有意な差がある」という結論が出やすいことになります。

実用上は意味のない程度の小さな差についても、サンプル数が多いと、「有意である」という結論になりやすくなります。

サンプル数が多い場合に検定を使う場合には、統計学的には有意であっても、 実用上も意味があると言えるかどうかの確認が必要です。 サンプル数が非常に多い場合には、限りなくゼロに近いようなP値になって初めて、実用上は意味のある差になっていることもあります。


ビッグデータの統計学と落とし穴

検定によるデータマイニング

異常状態の工程解析 では、「良品と不良品の違いが表われている変数は何か?」、といった調査があります。

現代では、 表計算 のソフトの組み込み関数でも、簡単にP値を計算できます。 そのため、疑いのある変数が100個くらいあっても、すべての変数について、片っ端からP値を計算するのは簡単です。

片っ端からP値を計算したら、P値の小さい順が、不良品に影響のある可能性の順になります。 P値の小さい順が、調査の優先順になります。

「合わせ技」と言われたりしますが、ある変数のある範囲の中でで、さらに違う変数がある範囲になった時に、 不良が続発したりする可能性もあります。 このように、変数が階層構造を持って複雑になっている時に、 自動的に可能性のある変数を探す方法が、 決定木 です。

平均値の差の検定

品質管理 等の実務で、一番使われるのは、平均値の差の検定かと思います。

平均値の差の検定は、2つの母平均の差の検定が基本です。 これは、単純に2つの平均値を引き算した値についての検定です。

分散分析 は、集団の数が2つより多くても使えます。 対応のある平均値の差の検定 は、2つの集団同士の個々のデータに対応がある場合に使えます。

分散分析対応のある平均値の差の検定 の簡単な説明としては、上記になります。 しかし、これらには、別の使い道がそれぞれあります。

また、平均値の差の検定は、目的変数(Y)が量的変数で、説明変数(X)が質的変数の場合の解析の中で、基本になるものです。


ロバストな解析

ノンパラメトリック検定

検定をする時に、正規分布(釣鐘型・ベル型の分布)を前提にするのが、「パラメトリック検定」です。 筆者の経験の範囲では、実用上は、パラメトリック検定で用が足りる場合が多いです。 正規分布による近似は、かなり強力です。

とはいえ、正規分布を前提にしない検定方法も考案されていて、ノンパラメトリック検定と呼ばれています。

ノンパラメトリック検定では、中央値に対するプラスとマイナスの分布や、 大きさの順位、といったものを使います。 「中央値は意味がありそうだが、この分布の平均値は意味がなさそう。」、 「大きさの順位程度ならわかるが、具体的な量のデータまでは出せない。( アンケート のデータ、等)」、と言った場合に頼りになる方法です。



独立性の検定

比率の差の検定



順路 次は 分散分析

Tweet