トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

データサイエンス教室

推定

「推定」というのは、ある確率での統計量の範囲を予想する方法です。 ある確率というのは、一般的には95%を使います。 (正規分布の場合には、平均値を中心にして、プラス側とマイナス側に標準偏差の1.96倍ずつをとった区間の中に、 分布の95%が入っています。)

図は、平均値の推定の場合です。 しかし、例えば、 回帰分析 で予測する時の範囲として出て来るなど、信頼区間や予測区間は、いろいろな統計量について、計算方法が知られています。

信頼区間

推定

データから直接求められる平均値は、サンプルの平均値です。 そのため、 「この平均値は、どのくらい信頼できる値なんだろう?」、とか、 「サンプリングをやり直したら、平均値はどのくらいにずれるだろう?」、という疑問が起きます。

その疑問に答えるのが信頼区間です。 信頼区間とは、「ある確率で、平均値があると考えられる区間」です。 図では、95%の確率の場合を描いてみました。


になります。
Excelの関数を使うなら、A3セルからA7セルの間にデータがある場合、
信頼区間の上側=AVERAGE(A3:A7)+TINV(1-0.95,COUNT(A3:A7)-1)*STDEV(A3:A7)*SQRT(1/COUNT(A3:A7))
で求まります。

分散の信頼区間

平均値の信頼区間ほどはニーズがないと思いますが、ばらつきの指標の分散にも、信頼区間の計算式があります。

分散の信頼区間の求め方や考え方は、 誤差とn数 のページに書きました。

予測区間

図で「元データ」と書いている点は、個々のサンプルの値です。 そのため、「次にサンプリングしたら、どのくらいの値になるだろうか?」、という疑問が起きます。 この値は、未来の予測をしたい場合に重要になります。

その疑問に答えるのが予測区間です。 予測区間とは、「ある確率で、個々のサンプルの値があると考えられる区間」です。 図では、95%の確率の場合を描いてみました。


になります。

別のサンプルの値が、この区間に入っていれば、想定内の結果ということになります。 区間の外だとすると、もしかしたら、異常状態のデータかもしれません。

信頼区間と予測区間の性質

信頼区間と予測区間の幅の決まり方には、共通の性質があります。

信頼区間や予測区間を実務で使おうとすると、「こんなに幅が広いと、当てにならないから、ちょっと使えないなぁ。。。」、 ということがあります。 区間を狭めるには、これらの性質を考えます。

単純に区間の見た目を狭めたいのであれば、確率をいじれば良いです。 実用的な目的を考えるのでしたら、サンプルを増やしたり(「n数を増やす」とも言います)、 標準偏差の大きさの原因(データのばらつき)の原因を調べて、標準偏差を小さくする必要があります。



ビッグデータの統計学と落とし穴



順路 次は 情報理論

Tweet