比例分布
の数理モデルの一番簡単な形は、
Y = E * X
という式です。
その次に簡単な形は、
Y = (a + E) * X
という式です。
この式の意味は、 「原因であるXと誤差の積が、Yになっている」というものです。 世の中で、相関が高いYとXを散布図にすると、Xが大きければ大きいほど、Y方向のばらつきが大きいことがあります。
この構造がわかれば、
有向グラフになるデータの構造
のひとつになります。
なお、比例分布モデルの構造の特定に、歪度や尖度を使うという下記の話は、筆者のアイディアです。 世の中には、先行研究があるかもしれないです。そのような文献をご存知の方は、ご教示いただけると幸いです。
Eが正規分布や一様分布の場合、Eは左右対称の分布になります。 1/Eは、非対称になります。 非対称であればあるほど、歪度(わいど:skewness)の絶対値が大きくなります。この性質を利用します。
具体的には、2つの変数SとTがあった時に、S/TとT/Sを計算して、それぞれで歪度を計算します。
例えば、T/Sの歪度が-0.20で、S/Tの歪度が0.94の場合は、
T = (a + E) * S
というように推定ができます。
構造を矢印で表すと下のようになります。
T = (a1 + E1) * S
U = (a2 + E2) * T
という関係になっている3変数があったとします。
3変数間で構造を特定するには、2段階が必要です。
2変数の時の方法で、歪度を計算すると下のグラフのようになります。
SとT、SとU、TとUについて、それぞれで矢印の向きがわかり、それをそのまま矢印で表現すると下になります。
歪度だけで判断すると、こうなります。
ここでは、SとUの間にも、矢印があります。
まず、SとUの間で起こっていることを確認します。
U = (a2 + E2) * (a1 + E1) * S
UとSの関係式は上のようになっています。
Sにかけ合わさっている
(a2 + E2) * (a1 + E1)
という部分は、正規分布同士の積ですが、これが左右対称の分布ということを使って、SとUの間の矢印の向きが決まっています。
ここで尖度(せんど:kurtosis)を使います。
下のグラフは、正規分布の尖度です。10万個のサンプルを使って、計算しています。
標準偏差の大きさに関係なく、ほぼ0であることがわかります。
また、正規分布同士の積ですが、
下のように、Z1、Z2という2つの正規分布があった場合、Z1*Z2という変数のグラフは、Z1、Z2よりも尖っています。
この尖り方の違いが尖度でわかります。
上記のような尖度の性質を使います。
尖度を計算すると下のグラフのようになっています。
このグラフから、UとSは正規分布同士の積の関係が入っているらしいことがわかり、UとSの間の矢印は消せます。
「Eが左右対称の分布」という前提があります。 Xが大きければ大きいほどY方向のばらつきが大きいデータだとしても、Eが左右対称の分布ではない場合はできません。
そのため、Eと1/Eの両方について、ヒストグラムを作って確認した方が良いです。
回帰モデルになるデータの構造 、つまり、Y = X + Eの場合は、Y/Xが非対称になるため、歪度で判断できません。
実際のデータでは、 回帰モデルになるデータの構造 と比例分布モデルのデータ構造は、見分けがつきにくいことがあります。
3変数の場合で、上記の方法で調べられるのは、
のような時です。
1つの変数に、2つの変数が影響している場合、つまり、下のような時は調べられません。
順路
次は
因果の時間差