標準偏差 と違って、標準誤差はあまり知られていないです。
いずれも計算式はそれほど難しくないですが、計算式を見ても、どういうものかがわかりにくい尺度です。 このページでは、平均値のばらつきをスタートにして、考えています。
上のグラフは、平均値0、標準偏差1の正規分布から、ランダムにサンプリングしたサンプルについて、平均値を計算したものです。
n=3というのは、サンプル数が3ということです。
このグラフは、それぞれのサンプル数について、100回サンプリングして、そのたびに平均値を計算して作っています。
ランダムにサンプリングして計算した平均値は、真の平均値からけっこうばらつくことと、サンプル数が増えれば増えるほど、ばらつき方は小さいことがわかります。
このばらつき方を標準偏差として計算すると、下のグラフになります。
このグラフは、「平均値の標準偏差」という、普通は目にすることのないグラフになっています。
唐突ですが、真の標準偏差の1をサンプル数の平方根(Sqrt(n))で割った値を計算して、上のグラフに並べると、下のグラフができます。
平均値の標準偏差と、真の標準偏差とサンプル数を使った値で、 ほぼ同じ値が計算できていることが、グラフからわかります。
真の標準偏差とサンプル数を使った値で、平均値の標準偏差を解析的に求めることができます。
平均値の標準偏差は、「標準誤差」と呼ばれていて、平均値のばらつきの仕方を表します。
実際のデータ分析の場面では、「真の標準偏差」というものはわからないことが普通です。 標準偏差は、サンプルから求めます。
平均値のばらつきのグラフと同様にして、標準誤差のばらつきを調べると、下のグラフになります。
標準偏差を計算してから、サンプル数の平方根で割っています。
標準誤差は、値の精度を表しています。
例えば、平均値が0.0と0.5の時があったとします。 サンプル数が3の場合は、真の平均値が0.0だったとしても、0.5という数字になることは標準誤差から十分に考えられるので、 「0.0と0.5になる、それぞれのグループは、母集団が同じか、異なるかがわからない。」となります。
サンプル数が1000の場合は、真の平均値が0.0なら、0.5という数字になることは、まずあり得ないので、 「0.0と0.5になる、それぞれのグループは、母集団が異なる可能性が非常に高い。」となります。
0.0と0.5という数字だけを見て、これらの母集団がどうなっているのかを考えることはできませんが、標準誤差を使うと、判断ができるようになります。
ちなみに、このような考え方で、平均値に差があると言えるのかを考える理論が、 平均値の差の検定 です。
上記は、真の標準偏差が1になる分布を例にしています。 標準誤差は、サンプルが多ければ多いほど、0に近付きます。 一方、真の標準偏差は、サンプル数は関係なく、同じです。
このページの主旨から外れますが、従来の検定の手法は、標準誤差を使って、「平均値の値に差がある」ということを判断しようとします。 この判断をする時には、真の標準偏差がどうなっているのかは、まったく考慮していません。 一方、「真の標準偏差も考慮しましょう」という手法は、 21世紀の検定 です。
順路 次は 不偏分散