トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

有向比例分散分析

比例分散では、
Y = (a + E) * X
という式を扱います。

これが成り立っていて、YとXを逆にしたものは成り立っていない時は、
Y <-- X
というように矢印で表現するようにします。

有向比例分散分析というのは、２つ以上の変数があって、比例分散の関係がある時に、それらの変数が、上記の式のYとXの、どちらに当てはまるのかを調べる方法です。結果を矢印で表せるので、有向グラフになるデータの構造の一種です。
proportional regression

なお、「有向比例分散分析」という名前は、筆者がつけたものです。比例分散モデルの構造の特定に、歪度や尖度を使うという下記の話は、筆者のアイディアです。世の中には、先行研究があるかもしれないです。そのような文献をご存知の方は、ご教示いただけると幸いです。

Y = E * Xの構造を、データから抽出する方法（２変数間）

Eが正規分布や一様分布の場合、Eは左右対称の分布になります。 1/Eは、非対称になります。非対称であればあるほど、歪度（わいど：skewness）の絶対値が大きくなります。この性質を利用します。

具体的には、２つの変数SとTがあった時に、S/TとT/Sを計算して、それぞれで歪度を計算します。例えば、T/Sの歪度が-0.20で、S/Tの歪度が0.94の場合は、
T = (a + E) * S
というように推定ができます。
proportional regression

構造を矢印で表すと下のようになります。
proportional regression

Y = E * Xの構造を、データから抽出する方法（３変数間）

T = (a1 + E1) * S
U = (a2 + E2) * T
という関係になっている３変数があったとします。

２変数の時の方法で、歪度を計算すると下のグラフのようになります。
proportional regression

SとT、SとU、TとUについて、それぞれで矢印の向きがわかり、それをそのまま矢印で表現すると下になります。歪度だけで判断すると、こうなります。
proportional regression

ここでは、SとUの間にも、矢印があります。元のデータは、SからT、TからUが作られるので、SとUの間の矢印を除去する方法があると良いのですが、なさそうです。尖度を使うことも考えてみましたが、上記の例で、a1やa2が０の特殊な場合にしか使えない方法でした。 a1やa2が０だと、U/Sの尖度が高くなる特徴があるので、それを使って判定する方法です。

Y = E * Xの構造を、データから抽出できない場合

Eが左右対称ではない場合

「Eが左右対称の分布」という前提があります。 Xが大きければ大きいほどY方向のばらつきが大きいデータだとしても、Eが左右対称の分布ではない場合はできません。

そのため、Eと1/Eの両方について、ヒストグラムを作って確認した方が良いです。

Y = X + Eのモデルの場合や、それに近い場合

回帰モデルになるデータの構造、つまり、Y = X + Eの場合は、Y/Xが非対称になるため、歪度で判断できません。

実際のデータでは、回帰モデルになるデータの構造と比例分散モデルのデータ構造は、見分けがつきにくいことがあります。

１つの変数に、２つの変数が影響している場合

３変数の場合で、上記の方法で調べられるのは、
proportional regression
のような時です。

１つの変数に、２つの変数が影響している場合、つまり、下のような時は調べられません。
proportional regression

ソフト

R

Rによる有向比例分散分析のページがあります。

順路次は誤差の乗法モデル

杉原データサイエンス事務所によるコンサルティングとセミナー