統計分布

統計学を勉強すると、正規分布、t分布、F分布、二項分布、カイ二乗分布、ポアソン分布、ガンマ分布、等々、様々な分布が出て来ます。

筆者の経験の範囲ですが、現実にデータサイエンスを使う場面では、「この解析には、正規分布を当てはめて良いのだろうか？」、と考える時に、分布の形の知識を使っています。

また、Excelで検定をする時には、関数を使いますが、その時に、例えば、
「２つの平均値の差の検定　＝　t分布を使う」
という知識を使います。

どの分布を何に使うのかを知っていると、解析できることが増えます。

確率密度

いろいろな分布の区別の前に、まず、「分布とは何か？」というところが、敷居の高い話になっています。

正規分布等のグラフの横軸で表しているものは、統計量（データを変形したりして計算した値）です。縦軸は、その統計量での確率密度です。

確率を面積で表現するための関数が、確率密度関数です。分布全体の面積は1、つまり、確率が100%を表現するようになっています。

ちなみに、確率だけでなく、期待値等も、確率密度を使って、面積を計算すること（積分）で得られます。複雑な面積を計算する方法としては、モンテカルロ法が重宝されています。