トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

正規分布と、その他

統計学 を勉強すると、 正規分布、t分布、F分布、二項分布、カイ二乗分布、ポアソン分布、ガンマ分布、等々、様々な分布が出て来ます。

筆者の経験の範囲ですが、現実に データサイエンス を使う場面では、「この解析には、正規分布を当てはめて良いのだろうか?」、 と考える時に、分布の形の知識を使っています。

また、Excelで検定をする時には、関数を使いますが、 その時に、例えば、
「2つの平均値の差の検定 = t分布を使う」
という知識を使います。

昔は、 検定 をするには数値表が必需品でした。 今は、この部分をソフトがやってくれるので、数値表が不要になりました。 AT車が普及して、車の運転が片足でできるようになったり、 ギアチェンジのタイミングを考えなくても良くなったことと似ています。

どの分布を何に使うのかを知っていると、解析できることが増えます。

確率密度

いろいろな分布の区別の前に、 まず、「分布とは何か?」というところが、敷居の高い話になっています。

正規分布等のグラフの横軸で表しているものは、統計量(データを変形したりして計算した値)です。縦軸は、その統計量での確率密度です。

確率を面積で表現するための関数が、確率密度関数です。 分布全体の面積は1、つまり、確率が100%を表現するようになっています。

ちなみに、確率だけでなく、期待値等も、確率密度を使って、面積を計算すること(積分)で得られます。 複雑な面積を計算する方法としては、 モンテカルロ法 が重宝されています。

正規分布

正規分布は、ガウス分布ともよばれています。 平均値と、標準偏差の値だけで、形が決まります。

標準正規分布

正規分布のうち、平均が0で標準偏差が1になるものは、標準正規分布といいます。

正規分布でない分布について、平均が0で標準偏差が1になるようにする変換は、「 標準化 」と呼ばれます。

標準正規分布については、累積確率がどの程度なのか等、よく知られているので、 標準正規分布を仮定できるように標準化で変換する事があります。

正規分布の理論のロバスト性

回帰分析 等、正規分布を元にしている理論はたくさんあります。 いろいろな分布があることを知っていたり、正規分布の正規性の評価を知っていると、 正規分布を元にしている理論は、正規分布が当てはまらないようなデータには使えないような気がして来ます。

しかし、実務の感覚で言えば、ある程度の範囲に収まっているデータなら、 多少いびつでも、外れ値っぽい値が混ざっていても、正規分布を仮定したデータ解析は役に立ちます。

例えば、 平均値と標準偏差 によるデータの評価は、正規分布とは言いにくい点があるとしても、 データの概要を知る参考になります。

正規分布を使う理論は、ロバスト(頑健)と言えます。

Rによる正規性の検定(シャピロ・ウィルク検定)

上記と反対に、正規分布かどうかをきちんと確認したい時は、 正規性の 検定 があります。 シャピロ・ウィルク検定が有名です。

R の使用例は下記になります。 (下記は、コピーペーストで、そのまま使えます。 この例では、Cドライブの「Rtest」というフォルダに、 「Data.csv」という名前でデータが入っている事を想定しています。 データは、「X」という列名で数値が入っていることを想定しています。)

setwd("C:/Rtest") # 作業用ディレクトリを変更
Data <- read.csv("Data.csv", header=T) # データを読み込み
shapiro.test(x=Data$X) # シャピロ・ウィルク検定

正規分布以外の分布

t分布

母分散が未知の場合(未知と考えた方が良い場合)に、正規分布の代わりに使う分布です。 平均値の差の検定に使われます。

対応のある平均値の差の検定も、t分布を使います。 分散分析は、平均値の検定ですが、F分布を使います。

カイ二乗分布

ある分散が、母分散に対してどういう関係なのかを調べる検定に使われます。 分散同士の関係を調べるときには、F分布を使います。

F分布

F分布は、2つの分散を比較して、それらの分散が同じ母集団から出たものかどうかを、 調べるための分布です。

F分布を工程管理で使う時には、ばらつきが小さくなる改善をした時に、 改善の効果を検証する時に使います。

また、分散分析でもF分布は使われます。 分散分析で使う時は、グループ内の分散と、グループの平均値の分散を比べて、 グループ間の平均値の差が、同じ母集団から想定される範囲と言えるかどうかを調べるために使われます。 平均値の違いを分散で調べるという、面白い発想をしている理論です。 分散分析は、 実験計画法 で実験したデータの解析でも、 実験条件による平均値の差の違いを調べるために使われてます。

二項分布

コインを1回投げて、表が出る確率は1/2、 2回投げて、表が2回出る確率は1/4、という計算がありますが、 こういった2値のデータの表われ方を表現するのに使われます。

2値のデータの代表的なものに、製品の合否データがあります。 このデータは、歩留(不良率)で表されることもあります。 歩留のようなニ値のうちの片方の割合を表すデータは、二項分布を背景に持っています。

ノンパラメトリック検定で、プラスとマイナスの出方に偏りがあるかどうかを調べたりする時に使う分布でもあります。

ポアソン分布

まれに発生するものの分布は、ポアソン分布を元にすると良いことが知られています。

ポアソン分布は、平均値と標準偏差が同じ値になる点が面白いです。

「まれに発生するもの」と言うとイメージがわきにくいと思います。 品質学 の分野の例で言えば、キズやゴミの数のデータは、ポアソン分布を仮定すると、うまく合う事があります。

正規分布から作られる分布

一見すると、正規分布ではないけれども、正規分布が関係している事があります。 正規分布から作られる分布 のページにまとめました。



正規分布ではないのですが、どうすれば良いですか?

ばらつくデータの作り方

参考文献

ロバスト推定法とデータ解析( 物理学周辺の確率統計 講座」 小柳義夫 著 日本物理学会誌 34(10) 1979.10
測定の誤差が正規分布になるという仮定は、問題になることがある。 問題の原因のひとつが、正規分布は裾が短い事。 裾が長い分布の極限が、コーシー分布(ローレンツ分布、ブライト・ウィグナー型分布)。
スチューデント分布は、自由度Nが1でコーシー分布になり、無限大で正規分布になる。 素粒子データの平均を計算するのに、スチューデント分布を使った研究事例がある。




順路 次は 正規分布から作られる分布

Tweet データサイエンス教室