トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

統計量の分布

統計量 というのは、 平均値標準偏差 のことです。

「統計量は、分布を要約して表すもの」と説明されるのが一般的です。 そのため、「統計量の分布」と言うと、「?!」となりそうですが、あります。

しかも、「統計量の分布」と言えるようなものは、筆者の知る限りでは、3種類あります。 ここでは、大きく分けて2種類あり、片方は、さらに分かれるので、全部で3種類になる分け方をしてみました。 3種類は、使い道がだいぶ違います。

このページでは、統計量の中でも一番ポピュラーな平均値を使って、統計量の分布の説明をします。

「ただひとつの真の値があるが、手に入れられるのは、その推定値」と考える場合

統計学の中でも「頻度論」と呼ばれる分野では、「真の値があって、データは確率的に得られたもの」という考え方に基づいています。 この考え方だと、真の値は分布を持つようなものではないのですが、人が手に入れられるのは、真の値そのものではなく、真の値の推定値です。

推定値は、分布を持ちます。

統計量の確からしさを表す場合

標準誤差信頼区間 は、平均値の分布の大きさです。

「分布」と言えば、ヒストグラムがわかりやすいですが、 標準誤差信頼区間 では、分布の幅を数値で表現します。

統計量は、サンプルの値を集計したものなので、サンプルの選び方や、サンプルの数によって、値が異なります。 標準誤差信頼区間 は、計算した値の確からしさを表現しています。 例えば、「平均値は、5.3になったが、サンプルの選び方を変えたら、6.0よりも大きくなる可能性はあるか?」といったことが評価できます。

統計量が複数ある場合

「100個のサンプルから、ランダムに3個選んで、平均値を計算する。それを10回繰り返す」ということをすると、3個のサンプルによる平均値が10個できます。 3個の組合せ方で平均値は変わるので、この10個の平均値は、分布の形になります。

この分布から、「平均値の平均値」や「平均値の標準偏差」というものが計算できます。

例えば、工場だと、「ロット」と呼ばれるまとまりで生産するので、ロット毎の平均値があります。 そのため、「平均値の平均値」というものがあります。

標準誤差不偏分散 のページでは、 標準誤差不偏分散 がどのようなものなのかを把握するために、「ランダムに3個選んで、平均値を計算する。それを10回繰り返す」といった実験をしています。

「ただひとつの真の値はなく、統計量には、もともと分布がある」と考える場合

ベイズ統計 では、「真の値に相当するのがデータの方で、統計量のパラメタが確率的に得られる」という考え方をします。

このため、ベイズ統計では、「平均値の平均値」や、「平均値の標準偏差」というものが最初からあって、それをデータから推定しようとします。



順路 次は 実務の中の正規分布

データサイエンス教室