統計学 には、データが 正規分布 になっている事を前提にしている理論がたくさんあります。 データが左右対称の山の形で分布している時は、正規分布を前提にした理論は、けっこうよく当てはまります。
しかし、山の形をしていない時や、左右対称でない時には、正規分布を前提にした理論を使うと、データ解析で思わぬ失敗をする事があります。
また、左右対称でない時は、片側の裾野がとても長くなったりして、 外れ値 かどうかの判断が難しくなります。
ところで、左右対称でないけれど、山の形をしているデータの場合、 正規分布で仮定できるデータが、何かのメカニズムを通過することで、左右対称ではなくなっていることがあります。
このメカニズムに気付けると、データ解析で大きな成果につながる事もあります。
このページでは、筆者の経験の範囲で、こういったメカニズムの例をまとめてみました。
このページのデータは、 サンプルファイル を作りました。 なお、実際は、n=100000や、n=1000でこのページのグラフを作っていますが、 ファイルが巨大になってしまいますので、n数を減らしてサンプルファイルは作っています。
計算の元になるのは、n=100000で、平均値が10、標準偏差が10の正規分布になっているデータです。
そのデータを対数にしたり、3乗したグラフは非対称になっています。
ちなみに、2乗や、10乗でも、右側に裾野が長くなりますが、グラフにするとわかりにくいです。
計算の元になるのは、n=100000で、平均値が10、標準偏差が10の正規分布になっているデータを2つ使います。
グラフからはわかりにくいですが、 A/Bの値の分布は、右側の裾野がやや長くなっています。 ちなみに、A/Bを、このサイトでは「 割り算モデル 」と呼んでいます。 いろいろと重宝する計算式です。
計算の元になるのは、n=200で、平均値が10、標準偏差が10の正規分布のセットが、1000セットあるデータです。
それぞれのセットが最大値、最小値、といった代表値を持っています。 代表値をグラフにしてみました。
「n=200で、1000セット」のデータと言うのは、イメージがわきにくいかもしれません。 品質学 の分野の例で言えば、「セット」は「ロット」が相当する事があります。 1000ロットあって、ひとつのロットが200台の製品で構成されているケースが相当します。 200台にひとつずつデータがあって、 200台分のデータの最大値だけで、そのロット全体の合否を判定してしまうケースがこの例に相当します。 最大値は1000個ありますが、その分布の話になります。
あるいは、ひとつの製品について、200か所データを測っていて、製品が1000個ある場合も相当します。 200個分のデータの最大値が1000個ありますが、その分布になります。 シリコンウェハーの品質特性にこういったものがあります。
最大値や最小値だけの分布は、「 極値統計 」という名前で研究が進んでいます。
ちなみに、平均値も代表値の一種ですが、平均値の分布は、 信頼区間 という名前で解析される事があります。 複数の正規分布の平均値から作られる分布は、正規分布になっています。
ランダムウォークモデル
が作るデータの分布は、正規分布からかけ離れたものになりますが、
それでも、正規分布から作られる分布の一種です。
上のグラフは、
比例分散の線形混合モデル
にあるものですが、左のYのグラフは、正規分布とは思えないような分布になっています。
しかし、もしもXという変数もあって、Y/Xという変数を作ると、Y/Xについては、正規分布になっています。
また下のような、
比例分散
は、一見すると2次元の分布ですが、Y/Xを計算すると、Y/Xは、1次元の正規分布の話に帰着できます。
順路 次は 極値統計