データ分析では、 正規分布 をよく使います。 この使い方は、近似です。 「正規分布とみなす」という考え方をします。
上のような、n = 5のデータがあったとします。
こういうグラフを見ると、「上の2個と、下の3個に分かれている」ということに、まず、気付く人が多いと思います。
その次の考え方は、おそらく2通りに分かれます。
確率的な考え方をするのなら、「分かれているように見えるが、たまたま今回はこのパターンになったのだ。 5個が集まるような時や、1個と4個に分かれるように見えることもあるはずだ。」となってきます。
データの背景を常に注意しているのなら、「上の2個と、下の3個は、測定の仕方とか、何かが違うのでは?」となってきます。
どちらなのかは、このデータだけでは判断できません。 大事なのは、まったく違う観点で、2つの可能性の仮説を立てるところになります。
筆者の実務経験の場合では、上の例のようなデータの場合、上の2個と下の3個で、データの背景が違うことの方が、ほとんどです。
「測定した日が違う」、「測定器が違う」、「同一品種だが、ロットが違う」、といった違いが、違うことが多いです。
測定方法によりますが、工場で扱うような測定の場合、同じ条件で、短時間で全部測定した時には、近い値になることが多いです。 「同じ条件」というところが、何か違っていると、離れやすい性質があるようです。
上のようなデータがあったとします。
範囲が-3から3くらいまであって、正規分布のように見えます。
データ全体のグラフでは、分布の裾野がわからないです。
拡大してみると、やはり-3から3くらいで、それ以上離れたところに、データはないことがわかります。
ところで、こういうデータに対して、「正規分布なのだから、100が出る可能性は、ゼロではない」という考え方をする人が、時々いらっしゃいます。 「100という数字がデータに含まれていないのは、確率的に非常に小さいからだ。 膨大な数のサンプリングをすれば、どこかで出て来てもおかしくない」とも考えられています。
そういう説では、分布のイメージは、下のようになっています。
「正規分布は、無限小や無限大の領域がある」というのが、根拠になっています。
「正規分布なのだから、100が出る可能性は、ゼロではない」という説になっている時には、「データの背景には正規分布がある。 データは、その正規分布から、サンプリングしたもの」という統計学的な考え方になっています。
経験的に確かなのは、上のようなデータに対して、「正規分布の式を当てはめると、数学的な扱いがしやすくなる」という点だけではないかと思います。
近似しているのは、データがある範囲だけです。 データがある範囲の近くについては、だいたい当てはまるかもしれませんが、遠くについては想定していません。
「データの背景には正規分布がある。だから、無限小や無限大の領域にも値がある」という説には、根拠がありません。
近似して使うと便利な理論が、いつの間にか、自然界を表現する理論として、認識されているようです。
上の例では、データがマイナスの領域にもありますが、重さや長さのように、物理的にプラスの値しかあり得ないものものあります。
このようなデータでは、マイナスはあり得ないので、無限小はないということがわかりやすいかと思います。
「マイナスはあり得ないデータはどうなっているのか?」ということで、下のように、0のところで絶壁のようになっている正規分布をイメージする人がいるかもしれませんが、筆者は、このようなパターンを見たことはないです。
経験論ですが、プラスしかあり得ないデータの場合、プラスの領域に入るような形で、データが山の形で分布するのが普通です。
ありとあらゆるものについて、当てはまる話ではないかもしれませんが、自然のものか、人工のものかに関わらず、物が成り立っている時には、ある程度の範囲に収まっている時に、それが物として認識されます。
別の見方をすれば、それぞれの物は、ある程度の範囲に収まるようになっている、と言えるかもしれません。
境界線は明確でないこともありますが、境界線があります。 そのため、無限の範囲というのは、ないようです。
順路 次は 統計量