トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

グラフィカルラッソ

グラフィカルラッソ(Graphical Lasso)は、 スパースモデリング の考えを取り入れた 多変量データの相関分析 の一種です。 GGM(グラフィカル・ガウシアン・モデル)とも呼ばれます。 相関係数 のような変数間の関係の強さを表す尺度で、 ネットワーク分析 をする方法です。

尺度を計算する時に、「関係ない」と考える変数間は、この尺度を0にしてしまいます。 こうすると、シンプルな形で考察を進めることができます。

古い文献の「グラフィカルモデリング」

グラフィカルラッソのアイディアは、比較的古い文献でも出てきます。 その中では、「グラフィカルモデリング」という名前になっています。 古い文献の中での、グラフィカルモデリングでは
「変数間の偏相関係数を計算 --> 値が比較的小さい変数間は、その値を0とみなす --> 他の変数間について、再び偏相関係数を計算」
という作業を繰り返すことで、モデリングします。

このアルゴリズムには、 偏相関行列 を計算するには、相関係数行列の逆行列が計算できる必要があったので、 根本的な弱点がありました。

グラフィカルラッソは、別の尺度や別のアルゴリズムで、古い文献のグラフィカルモデリングでやろうとしていたことを実現しています。

グラフィカルラッソでわかること

グラフィカルラッソでわかることは、相関係数ではなく偏相関係数でわかることにもなっています。

例えば、SとTという変数があって、これらは独立しているとします。 さらに、X1とX2という変数があって、いずれも「S+T」という式で近似できるとします。

この時、X1とX2の相関係数はとても高くなります。 一方、偏相関係数を計算すると、X1とS、X1とT、X2とS、X2とTに比べて、X1とX2の偏相関係数は低くなります。

相関係数だけで因果関係の分析をしていると、真っ先に、X1とX2の因果関係に注目したくなりますが、 偏相関係数で分析すると、因果関係として注目した方が良いのは、X1とX2の関係ではなく、X1とS、X1とT、X2とS、X2とTであることがわかります。

データをグラフ(散布図)にしただけだと、相関係数の高いものに注目しがちですが、 偏相関係数を使うと、変数に 線形和 の関係がある時に、これを見つけられるようになります。

なお、線形和以外の関係がある時には、偏相関係数では見つけられません。 この点には注意が必要です。 複数の要因が関係しているとしても、線形和が成り立っていないことは、あり得ます。

ソフト

一番簡単にグラフィカルラッソを試せるソフトは、 R-EDA1 と思います。

Rによるグラフィカルラッソ のページには、R-EDA1で使われているコードと、ほぼ同じコードがあります。



参考文献

グラフィカルラッソ

岩波データサイエンス Vol.5 スパースモデリングと多変量データ解析」  岩波データサイエンス刊行委員会 編 岩波書店 2017
スパースモデリング の歴史的な位置付けの話が詳しいです。
GGM(グラフィカル・ガウシアン・モデル)という名前で、グラフィカルラッソが紹介されています。 変数の関係を表す方法はいくつかあるが、Rのグラフィカルラッソは偏相関係数を使うそうです。


ProVision No.78」 日本アイ・ビー・エム 2010
「スパース構造学習によるセンサー・データの変化点検出と異常解析」という題名で井手剛氏の記事があります。
時間軸上で、範囲を区切って、相関関係の ネットワーク 構造の変化を見ていき、相関関係の変化の仕方から 異常状態を予測する方法 が紹介されています。
データ全体の相関関係を見るのではなく、範囲の相関関係の違いを見るのが、この方法のポイントです。


古い文献の「グラフィカルモデリング」

グラフィカルモデリング」 宮川雅巳 著 朝倉書店 1997
上記のグラフィカルモデリングの説明は、この本でいうところの量的データのグラフィカルモデリングです。 変数の群に順序が付く場合の計算もあります。
偏相関 の考え方による条件付き独立の解析は、「 層別 して 相関 を解析する」という形で説明されています。 この議論からグラフィカルモデリングにつながっています。
3変数以上の「絡み」を探る手段は、量的データには偏相関行列、 質的データには対数線形モデル(生起確率の対数をYにした、交互作用項を含む線形モデル)。 量的・質的が混在の場合は、量的変数をカテゴライズするのが一案。


Excelで学ぶ共分散構造分析とグラフィカルモデリング Excel2013/2010/2007対応版」 小島隆矢・山本将史 著 オーム社 2013
この本では、従来のパス解析を「古典的パス解析」と呼んでいます。 共分散構造分析とグラフィカルモデリングを一冊の中で解説し、 入門書レベルでそれらの連携の試みまで述べ、 ソフトまで用意してあるという点で、すごさを感じます。 ソフトは、ネットからダウンロードできるようにしていました。


多変量解析法入門」 永田靖・棟近雅彦 共著 サイエンス社
パス解析とグラフィカルモデリングについて、 数ページでコンパクトにまとまっています。


環境と健康データ」 柳川堯 著 共立出版 2002
汚染が複合している時の、 化学物質リスク の評価方法として、グラフィカルモデリングが紹介されています。


順路 次は LiNGAM

Tweet データサイエンス教室