トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

確信区間(信用区間)

確信区間は、信用区間とも呼ばれます。 名前も、内容も、信頼区間と似ていますが、計算方法が違います。

信頼区間と確信区間の違い

確信区間は、まず、事前分布として、真の平均値の分布を仮定して、データで補正する形で事後分布を得ます。 事前分布、事後分布という考え方は、ベイズ統計を使っています。

信頼区間との一番の違いは、「真の平均値には分布がある」と仮定する点です。

求まるものは、真の平均値の分布なので、そこから例えば、95%の区間を抽出すれば、95%の確率で真の平均値が含まれる区間になります。 「95%の確率で真の平均値が含まれる区間」という説明の仕方は同じですが、 「信頼区間に、95%の確率で真の平均値が含まれる」と言っている時とは、確率として想定していることが、まったく異なります。

確信区間への誤解

「確信区間は、95%の確率で真の平均値が含まれる区間」、と説明しましたが、これは誤解しやすいです。

確信区間は、「真の平均値の分布はこうなっている」と仮定して、その仮定をデータで補正したものから作られています。 そのため、最初の仮定が間違っていたら、補正したものも間違いです。 データに偏りがあるのなら、得られる確信区間にも影響します。

「確信区間は、95%の確率で真の平均値が含まれる区間」と説明するのは間違いではないですが、前提条件があって成り立っている話です。 「確信区間は、95%の確率で真の平均値が含まれる区間」だけを抜き出して来ると、信頼区間とは違って、 真の平均値のことが直接的にわかってしまう理論のように見えますが、そんなことはないです。

信頼区間と確信区間の使い分け

信頼区間(頻度論的なアプローチ)と確信区間(ベイズ論的なアプローチ)は、どちらが優れているものでもないです。 下記は、使い分けの参考になりそうな事になります。

同じ物を繰り返し測定した実験データの分析では、下記の3つのポイントのすべてに当てはまって来て、信頼区間を求めた方が良いです。

平均値の種類

平均値の意味の使い分け のページにあるように、世の中の平均値が表すものには、2種類あります。

「ベイズ論では、データを固定値、統計量を変数と考える」と説明されますが、固有の値を持っているのは個人の体重なので、 代表値としての平均値には、平均値の分布を仮定する確信区間が良いように思います。

一方、「頻度論では、データが変数、統計量が固有値と考える」と説明されます。 「真の値に固有の意味があり、データは測定の都合で真の値からばらついたものが、複数求まっている」、と想定している場合は、頻度論の考え方と合っているので、 信頼区間が良いようです。

区間の意味

上記のように信頼区間は、 標準誤差 の特徴を持っています。

信頼区間は、計算した平均値が、現在のサンプル数だと、どのくらいの確からしさで、求まっているのかの目安になります。

確信区間には、このような使い方ができないです。

計算のシンプルさ

確信区間の計算は、計算する人がデザインする部分が入っています。計算式も複雑です。

信頼区間は、何%にするか、という部分以外は、人が入る余地がなく求まります。計算式はシンプルです。 値の透明性という点では、信頼区間の方が便利です。



順路 次は 予測区間

Tweet データサイエンス教室