トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

実務の中の正規分布

データ分析では、 正規分布 をよく使います。 この使い方は、近似です。 「正規分布とみなす」という考え方をします。

スモールデータの考え方


上のような、n = 5のデータがあったとします。

こういうグラフを見ると、「上の2個と、下の3個に分かれている」ということに、まず、気付く人が多いと思います。

その次の考え方は、おそらく2通りに分かれます。

確率的な考え方をするのなら、「分かれているように見えるが、たまたま今回はこのパターンになったのだ。 5個が集まるような時や、1個と4個に分かれるように見えることもあるはずだ。」となってきます。

データの背景を常に注意しているのなら、「上の2個と、下の3個は、測定の仕方とか、何かが違うのでは?」となってきます。

どちらなのかは、このデータだけでは判断できません。 大事なのは、まったく違う観点で、2つの可能性の仮説を立てるところになります。

筆者の経験の場合

筆者の実務経験の場合では、上の例のようなデータの場合、上の2個と下の3個で、データの背景が違うことの方が、ほとんどです。

「測定した日が違う」、「測定器が違う」、「同一品種だが、ロットが違う」、といった違いが、違うことが多いです。

測定方法によりますが、工場で扱うような測定の場合、同じ条件で、短時間で全部測定した時には、近い値になることが多いです。 「同じ条件」というところが、何か違っていると、離れやすい性質があるようです。

無限大と無限小は、あるか?


上のようなデータがあったとします。 範囲が-3から3くらいまであって、正規分布のように見えます。


データ全体のグラフでは、分布の裾野がわからないです。 拡大してみると、やはり-3から3くらいで、それ以上離れたところに、データはないことがわかります。

ところで、こういうデータに対して、「正規分布なのだから、100が出る可能性は、ゼロではない」という考え方をする人が、時々いらっしゃいます。 「100という数字がデータに含まれていないのは、確率的に非常に小さいからだ。 膨大な数のサンプリングをすれば、どこかで出て来てもおかしくない」とも考えられています。

そういう説では、分布のイメージは、下のようになっています。

「正規分布は、無限小や無限大の領域がある」というのが、根拠になっています。

本末転倒の統計学の使い方

「正規分布なのだから、100が出る可能性は、ゼロではない」という説になっている時には、「データの背景には正規分布がある。 データは、その正規分布から、サンプリングしたもの」という統計学的な考え方になっています。

経験的に確かなのは、上のようなデータに対して、「正規分布の式を当てはめると、数学的な扱いがしやすくなる」という点だけではないかと思います。

近似しているのは、データがある範囲だけです。 データがある範囲の近くについては、だいたい当てはまるかもしれませんが、遠くについては想定していません。

「データの背景には正規分布がある。だから、無限小や無限大の領域にも値がある」という説には、根拠がありません。

近似して使うと便利な理論が、いつの間にか、自然界を表現する理論として、認識されているようです。

無限大と無限小が、あり得ないわかりやすい例

上の例では、データがマイナスの領域にもありますが、重さや長さのように、物理的にプラスの値しかあり得ないものものあります。

このようなデータでは、マイナスはあり得ないので、無限小はないということがわかりやすいかと思います。

「マイナスはあり得ないデータはどうなっているのか?」ということで、下のように、0のところで絶壁のようになっている正規分布をイメージする人がいるかもしれませんが、筆者は、このようなパターンを見たことはないです。

経験論ですが、プラスしかあり得ないデータの場合、プラスの領域に入るような形で、データが山の形で分布するのが普通です。

無限大と無限小が、あり得ない汎用的な理由

ありとあらゆるものについて、当てはまる話ではないかもしれませんが、自然のものか、人工のものかに関わらず、物が成り立っている時には、ある程度の範囲に収まっている時に、それが物として認識されます。

別の見方をすれば、それぞれの物は、ある程度の範囲に収まるようになっている、と言えるかもしれません。

境界線は明確でないこともありますが、境界線があります。 そのため、無限の範囲というのは、ないようです。



順路 次は 統計量

データサイエンス教室