トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

一般化線形混合モデル

一般化線形混合モデル(Generalized Linear Mixed Model:GLMM)は、一般化線形モデルと、線形混合モデルを合体させたものです。

一般化線形モデル(Generalized Linear Model:GLM)

一般化線形モデルは、 重回帰分析 の拡大版です。

重回帰分析 では、残差(推定値とデータの差)が正規分布になっていると考えますが、 一般化線形モデルでは、この分布にいろいろなものを使います。

説明変数の線形和を変数とする関数と、目的変数の関係を表す式を作ります。 こうすることで、 重回帰分析ロジスティック回帰分析 が統一的に扱えます。 重回帰分析はこの関数が恒等関数で、一番単純な場合という事になります。

線形混合モデル(線形混合効果:Linear Mixed Effect:LME)

線形混合モデルも 重回帰分析 の拡大版です。
LME不要の場合
例えば、上のグラフのように、カテゴリが5つあっても、全部が一直線上に重なる感じなら、線形混合モデルは不要で、 普通の 単回帰分析 で十分なのですが、こうではない場合を扱えるようになります。

カテゴリ毎に、傾きや切片が異なる時は、カテゴリ毎に 層別 して(データを分けて)分析する手がありますが、 線形混合モデルでは、ひとつのモデルでこのようなケースを扱います。

カテゴリ毎に異なる効果が「変量効果」、共通の効果が「固定効果」です。 具体的には、変量効果はカテゴリの数だけ傾きや切片の係数があるものです。 固定効果は全カテゴリで共通の係数になります。

切片が変量効果、傾きが固定効果のモデル

切片が変量効果、傾きが固定効果のモデルが当てはまるのはいくつかあります。

1つめの場合は、全データで単回帰分析をすると、負の相関になるのに、カテゴリ毎に見ると、正の相関になっている場合です。
切片のみが変量効果のモデル

2つめの場合は、全データの単回帰分析と、各カテゴリの傾きはそんなに変わらないのですが、各カテゴリが平行している場合です。
切片のみが変量効果のモデル

3つめの場合は、全データの単回帰分析では、相関ありとならないのに、各カテゴリでは高い相関がある場合です。
切片のみが変量効果のモデル

切片が固定効果、傾きが変量効果のモデル

切片が固定効果、傾きが変量効果のモデルが当てはまるのは、放射状にデータが広がっている場合があります。
切片のみが変量効果のモデル

線形混合モデルの使い道

線形混合モデルの使い道としては、「カテゴリ毎に傾きや切片が異なる」の他に、 「繰り返し測定したデータのセットが複数ある」もあります。

この場合は、「データのセット毎にカテゴリが違う」と考えて、カテゴリを表す質的変数を追加することで、線形混合モデルが使えるようになります。

数量化理論との共通点

専用ソフトを使わずに線形混合モデルを実行しようとすると、 ダミー変数 を使うことになります。

数量化理論 のページに、データの質的な違いによって、傾きと切片の異なる回帰直線が複数ある状態を作る話がありますが、 これと線形混合モデルは同じです。

Rの計算例

事前に「lme4」というパッケージをインストールして、読み込んでおきます。

R の使用例は下記になります。 (下記は、コピーペーストで、そのまま使えます。 この例では、Cドライブの「Rtest」というフォルダに、 「Data.csv」という名前でデータが入っている事を想定しています。

データは、1列目は「Y1」という列名で目的変数、2列目は「X1」という列名で説明変数、3列目は「C1」という列名でカテゴリが入っていることを想定しています。

setwd("C:/Rtest") # 作業用ディレクトリを変更
Data <- read.csv("Data.csv", header=T) # データを読み込み
lmer <- lmer(Y1 ~ X1 + (1 + X1|C1) + (1|C1), data=Data) # 線形混合モデル(傾きと切片に変量効果あり)
summary(lmer) # モデルの作成結果の出力

切片や、傾きの片方だけでに、変量効果がある場合も作れます。

lmer <- lmer(Y1 ~ X1 + (1|C1), data=Data) # 線形混合モデル(切片に変量効果あり)

lmer <- lmer(Y1 ~ X1 + (1 + X1|C1), data=Data) # 線形混合モデル(傾きに変量効果あり)


このページでは、グループごとに回帰直線の異なるグラフを描くのにExcelを使いましたが、Rだと複数の直線を一括して描けます。 その方法は、 ggplot2 のページにあります。

階層ベイズ

一般化線形混合モデルは、伝統的な統計学や多変量解析の延長にあるものです。 一般化線形混合モデルよりももっと複雑な分布を扱いたい場合は、 ベイズ統計 の延長にある 階層ベイズ の世界になってきます。




参考文献

一般化線形混合モデル

データ解析のための統計モデリング入門 一般化線形モデル・階層ベイズモデル・MCMC」 久保拓弥 著 岩波書店 2012
ポアソン回帰からスタートして、GLM(一般化線形モデル)を解説しています。
そして、現実のデータには何らかの個体差があるのでGLMが使えるのは限定的、として、 GLMM(一般化線形混合モデル)の話になり、 階層ベイズモデルの話につながります。
Rの例も多いです。
この本の著者は、 生態学 の方です。 ネットや別の本の中で、この本が データサイエンス の教科書のように紹介されているのを見たことがあります。 その理由として、 回帰分析 を扱っている一般的な本よりも内容が高度なことと、 マーケティング・サイエンス でも生態学のアプローチが使われているから、と思います。


空間統計学 :自然科学から人文・社会科学まで」 瀬谷創・堤盛人 著 朝倉書店 2014
付録で、一般化線形モデルを解説。 空間統計学ではポアソン回帰が多い。
空間統計学 で扱うデータは、隣合ったデータの値が近い、という性質があります。 このため、スプライン関数を使ったモデルがあり、「加法モデル」と呼びます。 加法モデルを実際に解くには、固定効果とランダム効果を使った混合モデルで定式化すると、データへの過剰適合が避けられて良いそうです。


計量経済学

計量経済学でも、「固定効果」、「変量効果」という言葉が出て来ますが、上記のものと意味が違います。
各カテゴリのYの平均値とXの平均値に注目して、平均値の分布を見たときに相関があるものを固定効果と言います。
切片のみが変量効果のモデル 切片のみが変量効果のモデル
相関のないものが変量効果(ランダム効果)です。
切片のみが変量効果のモデル


計量経済学」 浅野皙・中村二朗 著 有斐閣 2009
ダミー変数を使用しない方法として、各カテゴリで、平均値を計算して、 平均値を引いたデータで回帰分析を行う方法(Within)と、平均値の回帰分析を行う方法(Between)の組み合わせがある。
各カテゴリの平均値に相関がない時が、ランダム効果モデル。 相関がある時が固定効果モデル。 固定効果モデルの時は、全データから作られる傾きと、平均値が作る傾きが一致する。
(この本では、カテゴリ毎に傾きが異なるような状況は、想定されていません。 上記の話は、傾きが一定とみなせる時に有効です。)


計量経済学」 西山慶彦 他 著 有斐閣 2019
変量効果や固定効果として、重回帰式に項を加えるモデルが出て来ます。 固定効果のモデルには、固定効果としてひとつの項を置くものと、ダミー変数を使って複数の項を置くものがあるが、 説明変数に掛け合わせる係数は両者で同じになる。 固定効果と変量効果を見分ける方法にハウスマン検定があるが、使い方が難しい。
ミクロデータの分析として、 重回帰分析 の仲間の方法を紹介し、マクロデータの分析として、 自己相関分析 の仲間の方法を紹介。


計量経済学の第一歩」 田中隆一 著 有斐閣 2015
説明変数にダミー変数を入れて、カテゴリ毎の切片を変えたり、ダミー変数と説明変数の交差項を入れて、カテゴリ毎の傾きを変える方法を 紹介。 グループ間の違いの検定としては、チョウ検定(Chow)がある。
固定効果モデルの場合は、一括したデータを使って回帰分析をしても良いが、変量効果モデルの場合は、別の方法がある。



順路 次は パターン認識

Tweet データサイエンス教室