トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

量的データの因果モデルとLiNGAM

因果推論 では、当たり前のようにして、 重回帰分析 の数理モデルが使われています。 一番簡単な形は、
Y = X + e
という式です。

この式の意味は、 「原因であるXに誤差が加わったものが、Yになっている」というものです。

当たり前のように使われている式ですが、実務では困ったことが起きます。 このページは、そうした困り事を通して、筆者が考察したことになります。

Y = X + eが当てはまる場合

Xが操作できる量の場合

Xが操作できる量で、Yがその結果になっている場合は、Y = X + eが当てはまる可能性があります。

例えば、科目ごとに異なる試験時間がXで、クラスごとの実際の試験時間がYの時です。 この場合は、実際に因果関係がありますし、このモデルが当てはまるはずです。

Xが真の値の場合

この後の話の逆になるのですが、Xのデータが真の値(誤差が0)でしたら、Y = X + eが当てはまる可能性があります。

Y = X + eが当てはまらない場合

式がまったく違う場合

因果関係があっても、式が当てはまらない場合があります。 下のグラフの場合は、Xの、ある値を境にして、Yの値が決まっている場合です。
層別のグラフ

データが真の値ではない場合

回帰分析への測定誤差の影響 にも似たようなことを書いているのですが、XもYも測定値の場合は、両方に誤差があります。

仮に、真の値同士には、
y = x
という関係があったとしても、持っているデータがXとYとすると、
Y = y + ey
X = x + ex
といったようになっていて、XとYの散布図は一直線上にならずに、ばらつきます。

LiNGAM

パス解析SEM・共分散構造分析 では、
X1 = a1 * X2 + e1
X3 = a2 * X1 + a3 * X4 + e2

といったモデル式を仮説として置いて、a1、a2、a3の値を計算したり、このモデル式へのデータの当てはまりの良さを検証します。

LiNGAMが画期的なのは、このようなモデル式を分析者が置かなくても、データからモデル式を導けてしまう点にあります。 すごいです。

LiNGAMの前提と制約

LiNGAMは誤差eの部分が非正規分布であることと、変数が 線形和 の関係であることが前提条件になっています。

そのため、一様分布になっているなどで、この条件が当てはまるデータであれば、a1、a2、a3といった係数の値が、かなりきれいに求まります。

LiNGAMの使い道

if-thenルールと因果関係の関係 にあるように、 アソシエーション分析 のアウトプットからは、データの構造がわかります。 因果推論としては、直接的な因果関係ではなく、 因果関係の種類(ANDとOR) の考察に利用できるアウトプットになります。

LiNGAMのアウトプットは、純粋にはデータの構造を表す情報のひとつになります。

LiNGAMの誤用

LiNGAMの一般的な解説では、「データだけから因果の向きがわかる」と、当たり前のように語ることが非常に多いようです。

しかし、その根拠は、前提条件が成り立っていることです。

筆者としては、どのようなデータでも、また、どのような因果関係でも、「データだけから因果の向きがわかる」という主張がされるのなら、 それは誤用と思っています。




順路 次は 仮説の検証(実証分析)

Tweet データサイエンス教室