トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

正規分布から作られる分布

統計学 には、データが 正規分布 になっている事を前提にしている理論がたくさんあります。 データが左右対称の山の形で分布している時は、正規分布を前提にした理論は、けっこうよく当てはまります。

しかし、山の形をしていない時や、左右対称でない時には、正規分布を前提にした理論を使うと、データ解析で思わぬ失敗をする事があります。

また、左右対称でない時は、片側の裾野がとても長くなったりして、 外れ値 かどうかの判断が難しくなります。


ところで、左右対称でないけれど、山の形をしているデータの場合、 正規分布で仮定できるデータが、何かのメカニズムを通過することで、左右対称ではなくなっていることがあります。

このメカニズムに気付けると、データ解析で大きな成果につながる事もあります。

このページでは、筆者の経験の範囲で、こういったメカニズムの例をまとめてみました。

ヒストグラム

このページのデータは、 サンプルファイル を作りました。 なお、実際は、n=100000や、n=1000でこのページのグラフを作っていますが、 ファイルが巨大になってしまいますので、n数を減らしてサンプルファイルは作っています。

ひとつの正規分布の群から作られる分布

計算の元になるのは、n=100000で、平均値が10、標準偏差が10の正規分布になっているデータです。

そのデータを対数にしたり、3乗したグラフは非対称になっています。

ちなみに、2乗や、10乗でも、右側に裾野が長くなりますが、グラフにするとわかりにくいです。

ヒストグラム ヒストグラム ヒストグラム ヒストグラム

2つの正規分布の群から作られる分布

計算の元になるのは、n=100000で、平均値が10、標準偏差が10の正規分布になっているデータを2つ使います。

グラフからはわかりにくいですが、 A/Bの値の分布は、右側の裾野がやや長くなっています。 ちなみに、A/Bを、このサイトでは「 割り算モデル 」と呼んでいます。 いろいろと重宝する計算式です。

ヒストグラム

最大値や最小値の分布

計算の元になるのは、n=200で、平均値が10、標準偏差が10の正規分布のセットが、1000セットあるデータです。

それぞれのセットが最大値、最小値、といった代表値を持っています。 代表値をグラフにしてみました。

「n=200で、1000セット」のデータと言うのは、イメージがわきにくいかもしれません。 品質学 の分野の例で言えば、「セット」は「ロット」が相当する事があります。 1000ロットあって、ひとつのロットが200台の製品で構成されているケースが相当します。 200台にひとつずつデータがあって、 200台分のデータの最大値だけで、そのロット全体の合否を判定してしまうケースがこの例に相当します。 最大値は1000個ありますが、その分布の話になります。

あるいは、ひとつの製品について、200か所データを測っていて、製品が1000個ある場合も相当します。 200個分のデータの最大値が1000個ありますが、その分布になります。 シリコンウェハーの品質特性にこういったものがあります。

最大値や最小値だけの分布は、「 極値統計 」という名前で研究が進んでいます。

ちなみに、平均値も代表値の一種ですが、平均値の分布は、 信頼区間 という名前で解析される事があります。 複数の正規分布の平均値から作られる分布は、正規分布になっています。

ヒストグラム ヒストグラム

ランダムウォークが作るデータの分布

ランダムウォークモデル が作るデータの分布は、正規分布からかけ離れたものになりますが、 それでも、正規分布から作られる分布の一種です。
01data

比例分散

proportional regression proportional regression
上のグラフは、 比例分散の線形混合モデル にあるものですが、左のYのグラフは、正規分布とは思えないような分布になっています。 しかし、もしもXという変数もあって、Y/Xという変数を作ると、Y/Xについては、正規分布になっています。

また下のような、 比例分散 は、一見すると2次元の分布ですが、Y/Xを計算すると、Y/Xは、1次元の正規分布の話に帰着できます。
proportional regression




正規分布ではないのですが、どうすれば良いですか?

ばらつくデータの作り方

順路 次は 極値統計

Tweet データサイエンス教室