トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

階層ベイズ

一般的な統計学では、データに対して、分布を仮定し、その分布のパラメータ（平均値や標準偏差など）を調節して、データと分布が一致するようにします。

ところが、こうした一律な分布が当てはまらない場合があります。

階層ベイズでは、平均値や標準偏差も、何かの分布に従うと仮定して、その分布のパラメータを考えます。

こうした考え方を扱うのに、ベイズ統計学にある、事前分布の積で事後分布を作るアプローチを使います。

階層ベイズモデルでは、個の確率分布の積を尤度関数として、主観的に事前分布を組み合わせたものをモデル式にして、解（事後分布）を求めます。各階層の確率分布に違うものを使うこともできます。

階層ベイズの使い道

一般的な統計学で、平均値や標準偏差といった統計量を固定値と考えますので、これらの値を使って、データを要約することができます。要約した結果を、意思決定に使ったりします。

階層ベイズを使う場合、「あらかじめ仮定した分布（事前分布）を、データで修正して、本当らしい分布（事後分布）を得る」となって来ますので、使い道は「データの要約」ではなく、「分布を知る」になります。

時系列データに使う場合

例えば、ロケットの位置データと本当の位置の関係を考えると、本当の位置が刻一刻と変わって行く中で、位置データも変わります。

こうした現象には、「平均値が固定値ではない」という階層ベイズの考え方が合います。

階層ベイズの強みと注意

複雑なモデル（分布）を扱いたい場合、一般的な統計学では、「データを大量に用意しないと、過学習になっているモデルができる」と考えます。

一方で、階層ベイズでは、少ないデータで複雑なモデルが作れます。これは、「あらかじめ仮定した分布を、データで修正」という考え方をしているためです。

ただし、この考え方をうまく使うには、良い仮定と、良いデータが必要です。

ガウス過程回帰分析

参考文献

「道具としてのベイズ統計」　涌井良幸　著　日本実業出版社　2009
この本の階層ベイズでは、個の事象の発生確率を二項分布とし、その積で尤度関数を作る。パラメタθは、log (qi / (1-qi))= b + riでロジット。 bとriは正規分布の平均値。bの正規分布の標準偏差はハイパーパラメータだが、データ数が少なく、未知数を増やすのを避けるため10で固定。riの正規分布の標準偏差は一様分布と置く。この本では、パラメタを変えて、分布の変わる様子をグラフで観察した後に、経験ベイズ法で解を得る。経験ベイズ法は、瑣末な母数は積分で消し、主要な母数を最尤推定法で決める方法。

「ビジネスマンが一歩先をめざす　ベイズ統計学　ExcelからRStanへステップアップ」　朝野煕彦　編著　朝倉書店　2018
この本の階層ベイズでは、個の事象の発生確率をポアソン分布とし、その積で尤度関数を作る。パラメタθは、log (θi )= b0 +ri。 ri を平均0、標準偏差sの正規分布と置く。sとb0は、無情報事前分布で、解を収束させるための縛りになる。解はMCMCで得る。

「ビジネスマンがはじめて学ぶ　ベイズ統計学　ExcelからRへステップアップ」　朝野煕彦　編著　朝倉書店　2017
階層ベイズモデルをコンジョイント分析で使う。
地域分析に、空間統計モデルを使ったベイズ統計をする章があります。空間統計学のモデルは、隣接した地域間には関連性があるモデル。一方で、階層ベイズモデルは、全体と個は関連性があるけれども、個同士には関連性があるとするモデル。

順路

次は計算統計学

杉原データサイエンス事務所によるコンサルティングとセミナー