統計学 の世界では出て来ないけれども、現実のデータを扱う時に重要なことのひとつが、 有効数字や分解能 の情報です。
有効数字を使うと、非現実的な話に入り込まないで済むようになります。
上のヒストグラムは、100万個のサンプル(n=1000000)のヒストグラムです。
乱数で正規分布になるようにしているので、きれいな正規分布になっています。
平均が-0.000578、標準偏差が1.000285です。 信頼区間 は、(-0.002018, 0.001903)です。
ところで、
ここで使われているデータは下のようなもので、多くの桁があります。
机上の計算だと、このような話になるのですが、現実のデータはこういうものはないです。 物理学の実験や、工場で測定するようなデータは、 まず、 信頼区間 が1桁でも取れなかったりします。 取れるようになって、測定システムの管理に気を付けて測ると、2桁くらいが普通です。 3桁の精度を維持するのは、かなり大変になります。 ちなみに、 フェルミ推定 は、有効数字が1桁くらいで展開される世界です。
有効数字が2桁だった場合、少数第1位までということになるので、 この例のようなデータなら、平均が0.0、標準偏差が1.0ということになります。
信頼区間については、ゼロと考えるか、有効数字や分解能の幅と考えるか、となります。 いずれにしても「限りなく狭い範囲」ではなくなります。
平均値の差の検定 をする時に、「差はあると言えるのか?」という議論になります。
時には、「平均値が1.001と、1.003に差があると言えるのか?」という話にもなりますが、 有効数字や分解能を確認して、どちらも1.0ということなら、検定をしないでも、「差はない」と言えるようになります。
有効数字や分解能を考慮しないで進めると、わずかな平均値の違いと、信頼区間の幅による世界で悩むことになります。
データサイエンスの不可能性 というページがありますが、有効数字や分解能によって統計学的なアプローチができなくなるというのは、 「統計学の不可能性」と言って良いのではないかと、筆者は考えています。
人間が測定できる範囲、認知できる範囲、というものが不可能性の原因になっています。
ただ、この不可能性は、検定による検証をシンプルにしてくれるので、ありがたい性質と思っています。
順路 次は 測定システムに必要な能力の推定(有効数字の推定)