トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

信頼区間に最小値がある統計学（統計学の不可能性）

統計学の世界では出て来ないけれども、現実のデータを扱う時に重要なことのひとつが、有効数字や分解能の情報です。

有効数字を使うと、非現実的な話に入り込まないで済むようになります。

統計学は、非現実的な話になっていることがある

上のヒストグラムは、100万個のサンプル（n=1000000）のヒストグラムです。乱数で正規分布になるようにしているので、きれいな正規分布になっています。

平均が-0.000578、標準偏差が1.000285です。信頼区間は、（-0.002018, 0.001903）です。

ところで、ここで使われているデータは下のようなもので、多くの桁があります。

机上の計算だと、このような話になるのですが、現実のデータはこういうものはないです。物理学の実験や、工場で測定するようなデータは、まず、信頼区間が１桁でも取れなかったりします。取れるようになって、測定システムの管理に気を付けて測ると、２桁くらいが普通です。３桁の精度を維持するのは、かなり大変になります。ちなみに、フェルミ推定は、有効数字が１桁くらいで展開される世界です。

信頼区間に最小値がある統計学

有効数字が２桁だった場合、少数第１位までということになるので、この例のようなデータなら、平均が0.0、標準偏差が1.0ということになります。

信頼区間については、ゼロと考えるか、有効数字や分解能の幅と考えるか、となります。いずれにしても「限りなく狭い範囲」ではなくなります。

「差がある・ない」の検証がシンプルに

平均値の差の検定をする時に、「差はあると言えるのか？」という議論になります。

時には、「平均値が1.001と、1.003に差があると言えるのか？」という話にもなりますが、有効数字や分解能を確認して、どちらも1.0ということなら、検定をしないでも、「差はない」と言えるようになります。

有効数字や分解能を考慮しないで進めると、わずかな平均値の違いと、信頼区間の幅による世界で悩むことになります。

統計学の不可能性

データサイエンスの不可能性というページがありますが、有効数字や分解能によって統計学的なアプローチができなくなるというのは、「統計学の不可能性」と言って良いのではないかと、筆者は考えています。

人間が測定できる範囲、認知できる範囲、というものが不可能性の原因になっています。

ただ、この不可能性は、検定による検証をシンプルにしてくれるので、ありがたい性質と思っています。

ゼロ十分数

順路次は測定システムに必要な能力の推定（有効数字の推定）

杉原データサイエンス事務所によるコンサルティングとセミナー