トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

推定から検定へ

筆者の場合ですが、業務上は、 検定 の方が 推定 よりも先に必要になりました。 そのため、このサイトの順番も検定の方が先です。

一方、理論の中身は、「推定の方が先」と考えた方が、良いようです。

平均値の検定

推定から検定へ、の説明として、検定の中でも入門的な「平均値の検定」を例にします。 筆者の経験の範囲ですが、実務で「平均値の検定」を直接的に使う場面はないです。しかし、「平均値の検定」は、 「 平均値の差の検定 」の基礎になっている理論なので、その意味で、避けて通れない理論です。 また、 対応のある検定 は、平均値の検定を応用しています。 実務では、対応のある検定を使う場面はあるので、その意味でも避けて通れないです。

平均値の検定は、例えば、「データがオレンジ色の分布だった場合に、『真の平均値が0かもしれない』という仮説は棄却(否定)しても良いか?」という問題です。 つまり、「オレンジ色の分布は、平均値を計算すると1くらいになるが、 実は真の平均値は0で、もっとたくさんデータを取ると、平均値が0に近付くのではないか?」とい疑問に答える問題です。
推定

ここで、推定 の理論の中の、 信頼区間と標準誤差 の考え方を使います。

もしも、上のデータの分布が、n=3、つまり、3個のデータを使って書いたものだとしたら、平均値の分布は、下の緑色の分布のように推定されます。 このグラフだと、分布の範囲に0が含まれています。 そのため、『真の平均値は0で、データが増えると、平均値が0になるかもしれない』という可能性は残ります。つまり、棄却できないです。
推定

このように推定の理論を応用して、検定をします。 「平均値の分布」は、日常的な感覚だと馴染みのないものですが、これを応用しています。

なお、平均値の検定の実際の場面では、上の例のようなグラフではなく、信頼区間に入るかどうかで判断します。

サンプル数の影響が大きい理論

平均値と標準偏差が同じデータだとしても、サンプル数が異なると、平均値の分布の範囲が異なります。

オレンジの分布が、10000個のデータを使っている場合、平均値の分布は、下のようになります。 このグラフだと、0は、平均値の分布の範囲から外れているので、『真の平均値が0かもしれない』という疑問には、「そんなことは考えられません。」と答えられるようになります。
推定

平均値だけを見る理論

平均値の検定は、平均値だけを見る理論です。 元のデータの分布がどのようになっているかは関係なく、真の平均値がどうなっているのかだけを調べます。

分布のズレの検定

平均値の推定を、平均値の検定に応用するのは、それ自体は間違いではないです。 「サンプル数の影響」や「平均値だけを見る」というのも、平均値を調べる方法としては、間違いではないです。

しかし、問題は、実務の中で実際にやりたい事が、平均値の検定という方法と合っていない点です。 このページの内容から外れますが、 分布のズレの検定 は、やりたい事と方法が合っている方法です。



順路 次は 確信区間

Tweet データサイエンス教室