トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

確信区間(信用区間)

確信区間は、信用区間とも呼ばれます。 名前も、内容も、信頼区間と似ていますが、計算方法が違います。

確信区間

まず、事前分布として、平均値の分布を仮定して、データで補正する形で事後分布を得ます。 この計算は、ベイズの定理の応用になっています。

事後分布に対して、例えば、95%が含まれる区間(両端の2.5%ずつの内側の区間)を求めたものが、確信区間です。

信頼区間と確信区間の違い

真の平均値の考え方の違い

信頼区間との一番の違いとして、 変数とパラメタの関係における、頻度論とベイズ統計学の違い が解説されることが、一般的のようですが、筆者は、この解釈は誤解と考えています。

計算の仕方の違い

信頼区間は、分布の形を仮定して、平均と標準偏差を計算すれば求まります。

確信区間でも、分布の形を仮定します。 信頼区間との違いは、事前分布の平均値の標準偏差が、入力値になる点です。

信頼区間と確信区間の共通点

「信頼区間と確信区間は、まったく違うもの」という説明が、世の中では一般的のようですが、筆者は、「計算の仕方が違うが、同じもの」という理解をしています。

いずれも、真の値(仮に想定している分布が正確にわかると計算できる平均値)がどうなのかは、わからない点が同じです。

信頼区間も、確信区間も、「データから分かる範囲で、真の値を推定したもの。それを区間で表している。」になる点が同じです。

信頼区間と確信区間の使い分け

信頼区間(頻度論的なアプローチ)と確信区間(ベイズ論的なアプローチ)は、どちらが優れているものでもないです。 下記は、使い分けの参考になりそうな事になります。

同じ物を繰り返し測定した実験データの分析では、下記の3つのポイントのすべてに当てはまって来て、信頼区間を求めた方が良いです。

平均値の種類

平均値の意味の使い分け のページにあるように、世の中の平均値が表すものには、2種類あります。

「ベイズ論では、データを固定値、統計量を変数と考える」と説明されますが、固有の値を持っているのは個人の体重なので、 代表値としての平均値には、平均値の分布を仮定する確信区間が良いように思います。

一方、「頻度論では、データが変数、統計量が固有値と考える」と説明されます。 「真の値に固有の意味があり、データは測定の都合で真の値からばらついたものが、複数求まっている」、と想定している場合は、頻度論の考え方と合っているので、 信頼区間が良いようです。

区間の意味

信頼区間は、 標準誤差 の特徴を持っています。

信頼区間は、計算した平均値が、現在のサンプル数だと、どのくらいの確からしさで、求まっているのかの目安になります。

確信区間には、このような使い方ができないです。

計算のシンプルさ

確信区間の計算は、計算する人がデザインする部分が入っています。計算式も複雑です。

信頼区間は、何%にするか、という部分以外は、人が入る余地がなく求まります。計算式はシンプルです。 値の透明性という点では、信頼区間の方が便利です。



参考文献

道具としてのベイズ統計」 涌井良幸 著 日本実業出版社 2009
まず、正規分布を事前分布にすると、事後分布も正規分布になる性質があります。
分散が無限大に大きいと仮定した正規分布を、平均値の事前分布にして、事後分布を求めて、95%の区間を計算します。 この区間と、95%の信頼区間として計算した区間は、一致することが示されています。




順路 次は 予測区間

データサイエンス教室