トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

正規分布と、その他

正規分布は、ガウス分布ともよばれています。 平均値と、標準偏差の値だけで、形が決まります。

正規分布の理論のロバスト性

回帰分析 等、正規分布を元にしている理論はたくさんあります。 いろいろな分布があることを知っていたり、正規分布の正規性の評価を知っていると、 正規分布を元にしている理論は、正規分布が当てはまらないようなデータには使えないような気がして来ます。

しかし、実務の感覚で言えば、ある程度の範囲に収まっているデータなら、 多少いびつでも、外れ値っぽい値が混ざっていても、正規分布を仮定したデータ解析は役に立ちます。

例えば、 平均値と標準偏差 によるデータの評価は、正規分布とは言いにくい点があるとしても、 データの概要を知る参考になります。

正規分布を使う理論は、ロバスト(頑健)と言えます。

なお、正規分布の理論のロバスト性についての上記のコメントは、筆者の経験に基づくものです。 参考文献で、学術的な見解を見つけたのですが、「正規分布の理論はロバスト」という点は、同じようです。

正規分布以外の分布

t分布

母分散が未知の場合(未知と考えた方が良い場合)に、正規分布の代わりに使う分布です。 平均値の差の検定に使われます。

対応のある平均値の差の検定も、t分布を使います。 分散分析は、平均値の検定ですが、F分布を使います。

カイ二乗分布

ある分散が、母分散に対してどういう関係なのかを調べる検定に使われます。 分散同士の関係を調べるときには、F分布を使います。

F分布

F分布は、2つの分散を比較して、それらの分散が同じ母集団から出たものかどうかを、 調べるための分布です。

F分布を工程管理で使う時には、ばらつきが小さくなる改善をした時に、 改善の効果を検証する時に使います。

また、分散分析でもF分布は使われます。 分散分析で使う時は、グループ内の分散と、グループの平均値の分散を比べて、 グループ間の平均値の差が、同じ母集団から想定される範囲と言えるかどうかを調べるために使われます。 平均値の違いを分散で調べるという、面白い発想をしている理論です。 分散分析は、 実験計画法 で実験したデータの解析でも、 実験条件による平均値の差の違いを調べるために使われてます。

二項分布

コインを1回投げて、表が出る確率は1/2、 2回投げて、表が2回出る確率は1/4、という計算がありますが、 こういった2値のデータの表われ方を表現するのに使われます。

2値のデータの代表的なものに、製品の合否データがあります。 このデータは、歩留(不良率)で表されることもあります。 歩留のようなニ値のうちの片方の割合を表すデータは、二項分布を背景に持っています。

ノンパラメトリック検定で、プラスとマイナスの出方に偏りがあるかどうかを調べたりする時に使う分布でもあります。

ポアソン分布

まれに発生するものの分布は、ポアソン分布を元にすると良いことが知られています。

詳しくは、 ポアソン分布 のページがあります。

正規分布から作られる分布

一見すると、正規分布ではないけれども、正規分布が関係している事があります。 正規分布から作られる分布 のページにまとめました。



正規分布ではないのですが、どうすれば良いですか?

正規性の検定

ばらつくデータの作り方

実験の再現性問題

参考文献

数理統計学の考え方 推測理論の基礎」  竹内啓 著 岩波書店 2016
ロバストな推定量について、研究が盛んに行われた時期があり、正規分布を想定した推測方法は、ロバストであることがわかったそうです。


ロバスト推定法とデータ解析( 物理学周辺の確率統計 講座」 小柳義夫 著 日本物理学会誌 34(10) 1979.10
測定の誤差が正規分布になるという仮定は、問題になることがある。 問題の原因のひとつが、正規分布は裾が短い事。 裾が長い分布の極限が、コーシー分布(ローレンツ分布、ブライト・ウィグナー型分布)。
スチューデント分布は、自由度Nが1でコーシー分布になり、無限大で正規分布になる。 素粒子データの平均を計算するのに、スチューデント分布を使った研究事例がある。




順路 次は 標準正規分布

データサイエンス教室