トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

推定

「推定」というのは、「統計量の推定」です。

点推定と区間推定

平均値標準偏差 の計算方法が知られていますが、これは、統計学的には「点推定」と呼ばれています。

点推定よりも考え方が難しいのですが、「区間推定」というものもあります。 ある確率での 統計量 の範囲を推定する方法です。 ある確率というのは、一般的には95%を使います。 (正規分布の場合には、平均値を中心にして、プラス側とマイナス側に標準偏差の1.96倍ずつをとった区間の中に、 分布の95%が入っています。)

統計学的には、予測区間よりも信頼区間の方が注目されやすいようです。 そのためか、信頼区間は計算する機能はあるのに、予測区間は計算してくれないソフトはあっても、逆はありません。 しかし、 外れ値の判定異常値の判定 に使えるのは、予測区間の方です。

信頼区間

推定

データから直接求められる平均値は、サンプルの平均値です。 そのため、 「この平均値は、どのくらい信頼できる値なんだろう?」、とか、 「サンプリングをやり直したら、平均値はどのくらいにずれるだろう?」、という疑問が起きます。

その疑問に答えるのが信頼区間です。 信頼区間とは、「ある確率で、平均値があると考えられる区間」です。 図では、95%の確率の場合を描いてみました。


になります。
Excelの関数を使うなら、A3セルからA7セルの間にデータがある場合、
信頼区間の上側=AVERAGE(A3:A7)+TINV(1-0.95,COUNT(A3:A7)-1)*STDEV(A3:A7)*SQRT(1/COUNT(A3:A7))
で求まります。

分散の信頼区間

平均値の信頼区間ほどはニーズがないと思いますが、ばらつきの指標の分散にも、信頼区間の計算式があります。

分散の信頼区間の求め方や考え方は、 誤差とn数 のページに書きました。

予測区間

図で「元データ」と書いている点は、個々のサンプルの値です。 そのため、「次にサンプリングしたら、どのくらいの値になるだろうか?」、という疑問が起きます。 この値は、未来の予測をしたい場合に重要になります。

その疑問に答えるのが予測区間です。 予測区間とは、「ある確率で、個々のサンプルの値があると考えられる区間」です。 図では、95%の確率の場合を描いてみました。


になります。

予測区間の使い道

新しいサンプルの値が、この区間に入っていれば、想定内の結果ということになります。 区間の外だとすると、もしかしたら、異常状態のデータかもしれません。

予測区間には、 外れ値の判定異常値の判定 の方法としての使い道があります。

判定をする時には、目安になる数値(閾値)が必要です。 その数値の根拠として、予測区間が使えます。

信頼区間と予測区間の性質

信頼区間と予測区間の幅の決まり方には、共通の性質があります。

信頼区間や予測区間を実務で使おうとすると、「こんなに幅が広いと、当てにならないから、ちょっと使えないなぁ。。。」、 ということがあります。 区間を狭めるには、これらの性質を考えます。

単純に区間の見た目を狭めたいのであれば、確率をいじれば良いです。 実用的な目的を考えるのでしたら、サンプルを増やしたり(「n数を増やす」とも言います)、 標準偏差の大きさの原因(データのばらつき)の原因を調べて、標準偏差を小さくする必要があります。

ソフト

予測区間

上の例は、ExcelですがRの実施例は、 Rによる予測区間の分析 にあります。

このページは、正規分布の信頼区間と予測区間で、計算シンプルです。 Rによる予測区間の分析 には、 回帰分析の予測区間 の例もあります。

複雑な分布の信頼区間

ggplot2 や、 seaborn という グラフィカル分析のソフト には、複雑な分布についても、信頼区間を表示する機能があります。

R-EDA1

R-EDA1 でもできます。

「Similarity_of_Variables_and_Categories(変数やカテゴリの類似性)」
→「Between_label_column_and_others(ラベルのと他の変数の関係)」
→「Stratifeid_graph()
と進んだ中にある「histgram(ヒストグラム)」で予測区間を出すようにしました。 ただし、グラフを層別した時には、計算されません。

ヒストグラムは、区間が数字で表示されます。
R-EDA1



ビッグデータの統計学と落とし穴

順路 次は 情報理論

Tweet データサイエンス教室