統計学 を勉強すると、 正規分布、t分布、F分布、二項分布、カイ二乗分布、ポアソン分布、ガンマ分布、等々、様々な分布が出て来ます。
筆者の経験の範囲ですが、現実に データサイエンス を使う場面では、「この解析には、正規分布を当てはめて良いのだろうか?」、 と考える時に、分布の形の知識を使っています。
また、Excelで検定をする時には、関数を使いますが、
その時に、例えば、
「2つの平均値の差の検定 = t分布を使う」
という知識を使います。
どの分布を何に使うのかを知っていると、解析できることが増えます。
いろいろな分布の区別の前に、 まず、「分布とは何か?」というところが、敷居の高い話になっています。
正規分布等のグラフの横軸で表しているものは、統計量(データを変形したりして計算した値)です。縦軸は、その統計量での確率密度です。
確率を面積で表現するための関数が、確率密度関数です。 分布全体の面積は1、つまり、確率が100%を表現するようになっています。
ちなみに、確率だけでなく、期待値等も、確率密度を使って、面積を計算すること(積分)で得られます。 複雑な面積を計算する方法としては、 モンテカルロ法 が重宝されています。
順路 次は 正規分布と、その他