トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

信頼区間に最小値がある統計学(統計学の不可能性)

統計学 の世界では出て来ないけれども、現実のデータを扱う時に重要なことのひとつが、 有効数字や分解能 の情報です。

有効数字を使うと、非現実的な話に入り込まないで済むようになります。

統計学は、非現実的な話になっていることがある


上のヒストグラムは、100万個のサンプル(n=1000000)のヒストグラムです。 乱数で正規分布になるようにしているので、きれいな正規分布になっています。

平均が-0.000578、標準偏差が1.000285です。 信頼区間 は、(-0.002018, 0.001903)です。

ところで、 ここで使われているデータは下のようなもので、多くの桁があります。

机上の計算だと、このような話になるのですが、現実のデータはこういうものはないです。 物理学の実験や、工場で測定するようなデータは、 まず、 有効数字 が1桁でも取れなかったりします。 取れるようになって、測定システムの管理に気を付けて測ると、2桁くらいが普通です。 3桁の精度を維持するのは、かなり大変になります。 ちなみに、 フェルミ推定 は、有効数字が1桁くらいで展開される世界です。

信頼区間に最小値がある統計学

有効数字が2桁だった場合、少数第1位までということになるので、 この例のようなデータなら、平均が0.0、標準偏差が1.0ということになります。

信頼区間については、ゼロと考えるか、有効数字や分解能の幅と考えるか、となります。 いずれにしても「限りなく狭い範囲」ではなくなります。

「差がある・ない」の検証がシンプルに

平均値の差の検定 をする時に、「差はあると言えるのか?」という議論になります。

時には、「平均値が1.001と、1.003に差があると言えるのか?」という話にもなりますが、 有効数字や分解能を確認して、どちらも1.0ということなら、検定をしないでも、「差はない」と言えるようになります。

有効数字や分解能を考慮しないで進めると、わずかな平均値の違いと、信頼区間の幅による世界で悩むことになります。

統計学の不可能性

データサイエンスの不可能性 というページがありますが、有効数字や分解能によって統計学的なアプローチができなくなるというのは、 「統計学の不可能性」と言って良いのではないかと、筆者は考えています。

人間が測定できる範囲、認知できる範囲、というものが不可能性の原因になっています。

ただ、この不可能性は、検定による検証をシンプルにしてくれるので、ありがたい性質と思っています。




順路 次は 測定システムに必要な能力の推定(有効数字の推定)

Tweet データサイエンス教室