トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

正規化による有向相関分析

YとXという２つの変数があったとします。この時、「Y = X + eと、X = Y + eの、どちらなのか？」ということを、データから推定するのが、正規化による有向相関分析です。（Normalized Directed Correlation Analysis ：　NDCA）

正規化によるデータの加工

正規化（Normalization）は、元のデータから最小値（Minimum：Min）を引き、それを範囲（レンジ：Range）で割ります。範囲というのは、最大値（Maximamum：Max）と最小値の差です。

Normalization

正規化されると、数字が0から1の間になります。

２変数の正規化

XとYのそれぞれを正規化すると、どんなデータでも、データが左下を原点(0,0)にした、縦横が１の正方形の中に収まる形になります。
Normalization

構造の特定の手順

「Y = X + eと、X = Y + eの、どちらなのか？」は、以下のように進めます。

XとYを正規化して、Xn、Ynに変換
Xnと、Ynの標準偏差(Sd)を、それぞれ計算
標準偏差の比を計算。
Sd(Yn) / Sd(Xn) < 1 ならば、Y = X + e　の構造
Sd(Yn) / Sd(Xn) > 1 ならば、X = Y + e　の構造

上記で標準偏差としている部分を、回帰分析の傾きにしてもできます。

標準化では、できない

正規化と似たもので、標準化があります。標準偏差が１になるので、標準偏差を比べることができません。

構造が特定できる理由

一様分布の場合がわかりやすいので、一様分布を例にします。

回帰分析のモデルの簡単なものは、「Y = a * X + b + e」という構造でできているデータを、正規化して、 Yを縦軸にしたのが、下の左の図です。Xを縦軸にしたのが右の図です。 Xとeは、それぞれ一様分布です。

左下のヒストグラムは、Xのヒストグラムです。 Xは、一様分布なので、ヒストグラムでも一様分布な様子がわかります。

右下のヒストグラムは、Yのヒストグラムです。一様分布をしているXに、eの分が足されるので、分布の端の方が少なくなり、中心側が多くなります。そして、分布は０から１の間に収まるようにするので、正規化したXの分布と比べると、端のサンプルが、中心側に寄る形になります。この違いがあるので、Yの標準偏差の方が小さくなります。

そのため、Xの標準偏差とYの標準偏差の比が１より大きいかどうかで、構造がわかります。
Normalization

Xの分布が正規分布だと、特定できない

上記の法則は、Xの分布が一様分布のようになっていると、確実に成り立ちます。正規分布のように、分布の端の方が少ない場合は、上記で使っている法則が当てはまらないです。
Normalization

0.29が目安

Normalization
範囲が1の一様分布では、標準偏差が約0.29です。（「一様分布　分散」で文献が調べられます。上記の式の「12」という数字も出て来ます。）

構造が特定できる時の法則が成り立っているかどうかの確認をしないと、XとYの標準偏差の比で、構造が特定できないです。筆者は、法則が成り立っているかどうかの目安としては、標準偏差の大きい方が0.29に対して、どのくらいなのかを確認すれば良いように考えています。例えば、「0.2よりも大きければ、法則が成り立っていると考える」とします。

例えば、Xが正規分布のデータが正規化されると、標準偏差は約0.13になりますので、法則が成り立っていない可能性が非常に高いです。