トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

比例分散モデルになるデータの構造

比例分散 の数理モデルの一番簡単な形は、
Y = E * X
という式です。

その次に簡単な形は、
Y = (a + E) * X
という式です。

この式の意味は、 「原因であるXと誤差の積が、Yになっている」というものです。 世の中で、相関が高いYとXを散布図にすると、Xが大きければ大きいほど、Y方向のばらつきが大きいことがあります。

この構造がわかれば、 有向グラフになるデータの構造 のひとつになります。
proportional regression

なお、比例分散モデルの構造の特定に、歪度や尖度を使うという下記の話は、筆者のアイディアです。 世の中には、先行研究があるかもしれないです。そのような文献をご存知の方は、ご教示いただけると幸いです。

Y = E * Xの構造を、データから抽出する方法(2変数間)

Eが正規分布や一様分布の場合、Eは左右対称の分布になります。 1/Eは、非対称になります。 非対称であればあるほど、歪度(わいど:skewness)の絶対値が大きくなります。この性質を利用します。

具体的には、2つの変数SとTがあった時に、S/TとT/Sを計算して、それぞれで歪度を計算します。 例えば、T/Sの歪度が-0.20で、S/Tの歪度が0.94の場合は、
T = (a + E) * S
というように推定ができます。
proportional regression proportional regression proportional regression

構造を矢印で表すと下のようになります。
proportional regression

Y = E * Xの構造を、データから抽出する方法(3変数間)

T = (a1 + E1) * S
U = (a2 + E2) * T
という関係になっている3変数があったとします。

3変数間で構造を特定するには、2段階が必要です。

第1段階:2変数間の向きの特定(歪度の活用)

2変数の時の方法で、歪度を計算すると下のグラフのようになります。
proportional regression

SとT、SとU、TとUについて、それぞれで矢印の向きがわかり、それをそのまま矢印で表現すると下になります。 歪度だけで判断すると、こうなります。
proportional regression

ここでは、SとUの間にも、矢印があります。

第2段階:矢印の選択(尖度の活用)

まず、SとUの間で起こっていることを確認します。
U = (a2 + E2) * (a1 + E1) * S
UとSの関係式は上のようになっています。
Sにかけ合わさっている
(a2 + E2) * (a1 + E1)
という部分は、正規分布同士の積ですが、これが左右対称の分布ということを使って、SとUの間の矢印の向きが決まっています。

ここで尖度(せんど:kurtosis)を使います。 下のグラフは、正規分布の尖度です。10万個のサンプルを使って、計算しています。 標準偏差の大きさに関係なく、ほぼ0であることがわかります。
proportional regression

また、正規分布同士の積ですが、 下のように、Z1、Z2という2つの正規分布があった場合、Z1*Z2という変数のグラフは、Z1、Z2よりも尖っています。 この尖り方の違いが尖度でわかります。
proportional regression

上記のような尖度の性質を使います。 尖度を計算すると下のグラフのようになっています。 このグラフから、UとSは正規分布同士の積の関係が入っているらしいことがわかり、UとSの間の矢印は消せます。
proportional regression proportional regression

Y = E * Xの構造を、データから抽出できない場合

Eが左右対称ではない場合

「Eが左右対称の分布」という前提があります。 Xが大きければ大きいほどY方向のばらつきが大きいデータだとしても、Eが左右対称の分布ではない場合はできません。

そのため、Eと1/Eの両方について、ヒストグラムを作って確認した方が良いです。

Y = X + Eのモデルの場合や、それに近い場合

回帰モデルになるデータの構造 、つまり、Y = X + Eの場合は、Y/Xが非対称になるため、歪度で判断できません。

実際のデータでは、 回帰モデルになるデータの構造 と比例分散モデルのデータ構造は、見分けがつきにくいことがあります。

1つの変数に、2つの変数が影響している場合

3変数の場合で、上記の方法で調べられるのは、
proportional regression
のような時です。

1つの変数に、2つの変数が影響している場合、つまり、下のような時は調べられません。
proportional regression




動特性のSN比

順路 次は 足し算になるデータの構造

Tweet データサイエンス教室