トップページ | 統計学の解釈学 | このサイトについて

誤解の源泉としての、統計量の分布

以下は、筆者の私見です。 誤解があれば、ご教示いただけると幸いです。


統計学の解説では、 統計量の分布 という考え方が、常識のようにして語られます。

平均値、分散、標準偏差といった統計量と、実際のデータの関係はイメージしやすいです。

分布と、データの関係もしやすいです。

統計量は、データの要約なので、ひとつのデータセットに対して、ひとつです。 そのため、データセットが複数あれば、「統計量の分布」があるのは、理解しやすいです。

ところが、統計学の教科書では、ひとつのデータセットに対してでも、統計量の分布の話をします。

こんな不可思議なことが、すんなり受け入れられる人は稀ではないかと思うのですが、統計学の教科書では、平然と語られます。

そして、「統計量の標準偏差(標準誤差)は、データの標準偏差を、サンプル数の平方根で割ったもの」という説明があります。

数学が得意な人は、「定理」として導き出せる話のようなのですが、 筆者には、サンプル数の平方根で割ると、本当にそうなるのかが疑問でした。 そこで、 標準誤差 のページある検証をしました。 平均値の標準偏差と、データの標準偏差の平方根の比較をしました。 比較したら、本当に同じだったので、筆者は納得できました。

「頻度論とベイズ統計学の違い」のはじまり

変数とパラメタの関係における、頻度論とベイズ統計学の違い のページで、世の中の解説として、頻度論では、統計量の分布を考えていないものとして解説されることを書きましたが、 そのような説が出て来るのは、もしかしたら、頻度論でも統計量の分布が出て来ていることが、ロジックから抜けているからなのかもしれません。

頻度論かベイズ統計学かに関係なく、基本的に平均値は変数

計算して得ることのできる平均値は、どのケースでも、変数です。 また、神様だけが知っている真の値(固定値)としての平均値は、どのケースにもあります。

ベイズ統計学では、分布を設計する時に、平均値が固定値ではなく、分布を持つものとして定式化しますが、 真の値に相当するものはあります。 ただ、それが何かはわからないですし、それが何かは、追究していないだけです。

ケース1:設定値があるデータ

設定値を1000gにして、水をボトルに入れる場合を考えます。

この場合1000gピッタリのボトルだけでなく、1003gや、998gになるボトルができたとします。

このような状況は、「平均値がパラメタ。データが変数」という表現と合っています。 平均値は、目標値です。

この時、1003gになった理由として、 「実際の水は1000g : 測定値は1003g」、「実際の水は1003g : 測定値は1003g」、 の2つの可能性が、まず、考えられます。 さらに複雑な場合としては、「実際の水は999g : 測定値は1003g」、といった可能性も考えられます。

このケースでは、パラメタは設定値です。 平均値は変数です。

ケース2:同じものを複数回測定したデータ

ある人の、身長を測る場合を考えます。

この場合、身長は一定です。

一般的な身長計では、「5分間に5回測ったら、全部、170.3mmだった」ということもあるかもしれませんが、 大雑把だと、「170.5、170.3、170.3、170.1、170.1」という感じでばらつきます。

このケースは、真の値がひとつあるけれども、それがわからないです。

このケースでは、パラメタは真の値(あらゆる誤差が、0で測定できた場合)で、いわゆる「神様だけが知っている値」になります。 平均値は変数です。

ケース3:複数のものを、サンプリングしたデータ

1000人いるものの、全員は測定できないので、100人の体重を測って、1000人の体重の平均値を推定する問題があったとします。

100人の選び方で、100人の平均値は変わります。 つまり、100人の平均値は、変数です。

1000人の体重のひとつひとつがパラメタです。

100人の体重の平均値は、変数ですが、1000人の体重の平均値はパラメタです。 ただし、1000人の体重のデータがなければ、1000人の体重の平均値は出せないので、神様だけが知っている値になります。

目的と手段が合わない研究のはじまり

従来の検定は、統計量の分析に対して、開発されて来ています。

例えば、平均値の差の検定は、2つの平均値が、統計的に同じ数字と言えるかどうかを見る方法として、開発されて来ています。 (「平均値の数値的な差」というのは、どういうことですか?

その方法として、統計量の分布を調べています。

平均値の差の検定で、できないこと は、目的と手段の不一致が原因です。 これができない事を説明している文献はありますが、できない理由について、「統計量の分布を調べているから」、という事を説明している文献は、ないようです。



データサイエンス教室