トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

正規分布から作られる分布

統計学 には、データが 正規分布 になっている事を前提にしている理論がたくさんあります。 データが左右対称の山の形で分布している時は、正規分布を前提にした理論は、けっこうよく当てはまります。

しかし、山の形をしていない時や、左右対称でない時には、正規分布を前提にした理論を使うと、データ解析で思わぬ失敗をする事があります。

また、左右対称でない時は、片側の裾野がとても長くなったりして、 外れ値 かどうかの判断が難しくなります。


ところで、左右対称でないけれど、山の形をしているデータの場合、 正規分布で仮定できるデータが、何からのメカニズムを通過することで、左右対称ではなくなっていることがあります。

このメカニズムに気付けると、データ解析で大きな成果につながる事もあります。

このページでは、筆者の経験の範囲で、こういったメカニズムの例をまとめてみました。

ヒストグラム

このページのデータは、 サンプルファイル を作りました。 なお、実際は、n=100000や、n=1000でこのページのグラフを作っていますが、 ファイルが巨大になってしまいますので、n数を減らしてサンプルファイルは作っています。

ひとつの正規分布の群から作られる分布

計算の元になるのは、n=100000で、平均値が10、標準偏差が10の正規分布になっているデータです。

そのデータを対数にしたり、3乗したグラフは非対称になっています。

ちなみに、2乗や、10乗でも、右側に裾野が長くなりますが、グラフにするとわかりにくいです。

ヒストグラム ヒストグラム ヒストグラム ヒストグラム

2つの正規分布の群から作られる分布

計算の元になるのは、n=100000で、平均値が10、標準偏差が10の正規分布になっているデータを2つ使います。

グラフからはわかりにくいですが、 A/Bの値の分布は、右側の裾野がやや長くなっています。 ちなみに、A/Bを、このサイトでは「 割り算モデル 」と呼んでいます。 いろいろと重宝する計算式です。

ヒストグラム

最大値や最小値の分布

計算の元になるのは、n=200で、平均値が10、標準偏差が10の正規分布のセットが、1000セットあるデータです。

それぞれのセットが最大値、最小値、といった代表値を持っています。 代表値をグラフにしてみました。

「n=200で、1000セット」のデータと言うのは、イメージがわきにくいかもしれません。 品質学 の分野の例で言えば、「セット」は「ロット」が相当する事があります。 1000ロットあって、ひとつのロットが200台の製品で構成されているケースが相当します。 200台にひとつずつデータがあって、 200台分のデータの最大値だけで、そのロット全体の合否を判定してしまうケースがこの例に相当します。 最大値は1000個ありますが、その分布の話になります。

あるいは、ひとつの製品について、200か所データを測っていて、製品が1000個ある場合も相当します。 200個分のデータの最大値が1000個ありますが、その分布になります。 シリコンウェハーの品質特性にこういったものがあります。

最大値や最小値だけの分布は、「 極値統計 」という名前で研究が進んでいます。

ちなみに、平均値も代表値の一種ですが、平均値の分布は、 信頼区間 という名前で解析される事があります。 複数の正規分布の平均値から作られる分布は、正規分布になっています。

ヒストグラム ヒストグラム

ランダムウォークが作るデータの分布

ランダムウォークモデル が作るデータの分布は、正規分布からかけ離れたものになりますが、 それでも、正規分布から作られる分布の一種です。
01data




正規分布ではないのですが、どうすれば良いですか?

ばらつくデータの作り方

順路 次は 極値統計

Tweet データサイエンス教室