トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

確信区間（信用区間）

確信区間は、信用区間とも呼ばれます。名前も、内容も、信頼区間と似ていますが、計算方法が違います。ベイズ流の検定の一種です。

確信区間

まず、事前分布として、平均値の分布を仮定して、データで補正する形で事後分布を得ます。この計算は、ベイズの定理の応用になっています。

事後分布に対して、例えば、95%が含まれる区間（両端の2.5%ずつの内側の区間）を求めたものが、確信区間です。

信頼区間と確信区間の違い

真の平均値の考え方の違い

信頼区間との一番の違いとして、変数とパラメタの関係における、頻度論とベイズ統計学の違いが解説されることが、一般的のようですが、筆者は、この解釈は誤解と考えています。

計算の仕方の違い

信頼区間は、分布の形を仮定して、平均と標準偏差を計算すれば求まります。

確信区間でも、分布の形を仮定します。信頼区間との違いは、事前分布の平均値の標準偏差が、入力値になる点です。

信頼区間と確信区間の共通点

「信頼区間と確信区間は、まったく違うもの」という説明が、世の中では一般的のようですが、筆者は、「計算の仕方が違うが、同じもの」という理解をしています。

いずれも、真の値（仮に想定している分布が正確にわかると計算できる平均値）がどうなのかは、わからない点が同じです。

信頼区間も、確信区間も、「データから分かる範囲で、真の値を推定したもの。それを区間で表している。」になる点が同じです。

信頼区間と確信区間の使い分け

信頼区間（頻度論的なアプローチ）と確信区間（ベイズ論的なアプローチ）は、どちらが優れているものでもないです。下記は、使い分けの参考になりそうな事になります。

同じ物を繰り返し測定した実験データの分析では、下記の３つのポイントのすべてに当てはまって来て、信頼区間を求めた方が良いです。

平均値の種類

平均値の意味の使い分けのページにあるように、世の中の平均値が表すものには、２種類あります。

「ベイズ論では、データを固定値、統計量を変数と考える」と説明されますが、固有の値を持っているのは個人の体重なので、代表値としての平均値には、平均値の分布を仮定する確信区間が良いように思います。

一方、「頻度論では、データが変数、統計量が固有値と考える」と説明されます。「真の値に固有の意味があり、データは測定の都合で真の値からばらついたものが、複数求まっている」、と想定している場合は、頻度論の考え方と合っているので、信頼区間が良いようです。

区間の意味

信頼区間は、標準誤差の特徴を持っています。

信頼区間は、計算した平均値が、現在のサンプル数だと、どのくらいの確からしさで、求まっているのかの目安になります。

確信区間には、このような使い方ができないです。

計算のシンプルさ

確信区間の計算は、計算する人がデザインする部分が入っています。計算式も複雑です。

信頼区間は、何%にするか、という部分以外は、人が入る余地がなく求まります。計算式はシンプルです。値の透明性という点では、信頼区間の方が便利です。

参考文献

「道具としてのベイズ統計」　涌井良幸　著　日本実業出版社　2009
まず、正規分布を事前分布にすると、事後分布も正規分布になる性質があります。
分散が無限大に大きいと仮定した正規分布を、平均値の事前分布にして、事後分布を求めて、95%の区間を計算します。この区間と、95%の信頼区間として計算した区間は、一致することが示されています。

順路次は予測区間

杉原データサイエンス事務所によるコンサルティングとセミナー