トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

階層ベイズ

一般的な統計学では、データに対して、分布を仮定し、その分布のパラメータ(平均値や標準偏差など)を調節して、 データと分布が一致するようにします。

ところが、こうした一律な分布が当てはまらない場合があります。

階層ベイズでは、 平均値や標準偏差も、何かの分布に従うと仮定して、その分布のパラメータを考えます。

こうした考え方を扱うのに、 ベイズ統計学 にある、事前分布の積で事後分布を作るアプローチを使います。

階層ベイズモデルでは、個の確率分布の積を尤度関数として、主観的に事前分布を組み合わせたものをモデル式にして、解(事後分布)を求めます。 各階層の確率分布に違うものを使うこともできます。

階層ベイズの使い道

一般的な統計学で、平均値や標準偏差といった統計量を固定値と考えますので、 これらの値を使って、データを要約することができます。 要約した結果を、 意思決定 に使ったりします。

階層ベイズを使う場合、「あらかじめ仮定した分布(事前分布)を、データで修正して、本当らしい分布(事後分布)を得る」となって来ますので、 使い道は「データの要約」ではなく、「分布を知る」になります。

時系列データに使う場合

例えば、ロケットの位置データと本当の位置の関係を考えると、本当の位置が刻一刻と変わって行く中で、位置データも変わります。

こうした現象には、「平均値が固定値ではない」という階層ベイズの考え方が合います。

階層ベイズの強みと注意

複雑なモデル(分布)を扱いたい場合、一般的な統計学では、 「データを大量に用意しないと、 過学習 になっているモデルができる」と考えます。

一方で、階層ベイズでは、少ないデータで複雑なモデルが作れます。 これは、「あらかじめ仮定した分布を、データで修正」という考え方をしているためです。

ただし、この考え方をうまく使うには、良い仮定と、良いデータが必要です。



ガウス過程回帰分析

参考文献

道具としてのベイズ統計」 涌井良幸 著 日本実業出版社 2009
この本の階層ベイズでは、個の事象の発生確率を二項分布とし、その積で尤度関数を作る。 パラメタθは、log (qi / (1-qi))= b + riで ロジット。 bとriは正規分布の平均値。bの正規分布の標準偏差はハイパーパラメータだが、データ数が少なく、 未知数を増やすのを避けるため10で固定。riの正規分布の標準偏差は一様分布と置く。 この本では、パラメタを変えて、分布の変わる様子をグラフで観察した後に、 経験ベイズ法で解を得る。経験ベイズ法は、 瑣末な母数は積分で消し、主要な母数を最尤推定法で決める方法。


ビジネスマンが一歩先をめざす ベイズ統計学 ExcelからRStanへステップアップ」 朝野煕彦 編著 朝倉書店 2018
この本の階層ベイズでは、個の事象の発生確率をポアソン分布とし、その積で尤度関数を作る。 パラメタθは、log (θi )= b0 +ri。 ri を平均0、標準偏差sの正規分布と置く。sとb0は、無情報事前分布で、解を収束させるための縛りになる。 解はMCMCで得る。


ビジネスマンがはじめて学ぶ ベイズ統計学 ExcelからRへステップアップ」 朝野煕彦 編著 朝倉書店 2017
階層ベイズモデルをコンジョイント分析で使う。
地域分析に、空間統計モデルを使ったベイズ統計をする章があります。 空間統計学 のモデルは、隣接した地域間には関連性があるモデル。 一方で、階層ベイズモデルは、全体と個は関連性があるけれども、個同士には関連性があるとするモデル。



順路 次は 多変量解析

Tweet データサイエンス教室