「統計量は、分布を要約して表すもの」と説明されるのが一般的です。 そのため、「統計量の分布」と言うと、「?!」となりそうですが、あります。
しかも、「統計量の分布」と言えるようなものは、筆者の知る限りでは、3種類あります。 ここでは、大きく分けて2種類あり、片方は、さらに分かれるので、全部で3種類になる分け方をしてみました。 3種類は、使い道がだいぶ違います。
このページでは、統計量の中でも一番ポピュラーな平均値を使って、統計量の分布の説明をします。
統計学の中でも「頻度論」と呼ばれる分野では、「真の値があって、データは確率的に得られたもの」という考え方に基づいています。 この考え方だと、真の値は分布を持つようなものではないのですが、人が手に入れられるのは、真の値そのものではなく、真の値の推定値です。
推定値は、分布を持ちます。
「分布」と言えば、ヒストグラムがわかりやすいですが、 標準誤差 や 信頼区間 では、分布の幅を数値で表現します。
統計量は、サンプルの値を集計したものなので、サンプルの選び方や、サンプルの数によって、値が異なります。 標準誤差 や 信頼区間 は、計算した値の確からしさを表現しています。 例えば、「平均値は、5.3になったが、サンプルの選び方を変えたら、6.0よりも大きくなる可能性はあるか?」といったことが評価できます。
「100個のサンプルから、ランダムに3個選んで、平均値を計算する。それを10回繰り返す」ということをすると、3個のサンプルによる平均値が10個できます。 3個の組合せ方で平均値は変わるので、この10個の平均値は、分布の形になります。
この分布から、「平均値の平均値」や「平均値の標準偏差」というものが計算できます。
例えば、工場だと、「ロット」と呼ばれるまとまりで生産するので、ロット毎の平均値があります。 そのため、「平均値の平均値」というものがあります。
標準誤差 や 不偏分散 のページでは、 標準誤差 や 不偏分散 がどのようなものなのかを把握するために、「ランダムに3個選んで、平均値を計算する。それを10回繰り返す」といった実験をしています。
ベイズ統計 では、「真の値に相当するのがデータの方で、統計量のパラメタが確率的に得られる」という考え方をします。
このため、ベイズ統計では、「平均値の平均値」や、「平均値の標準偏差」というものが最初からあって、それをデータから推定しようとします。
順路 次は 実務の中の正規分布