距離行列による次元圧縮 が扱うのは、「距離」なので「値が大きいほど遠い」という性質があります。 値が小さい関係のあるものは、近くになるように、2次元座標を計算できます。 そして、この座標データを使ってグラフを作れます。
ところで、 ネットワーク分析 では、「値が大きいほど近い」という性質を持つデータを扱います。 ネットワークグラフ では、値が大きい関係のあるものは、近くになるようにグラフが作られます。
このように考えてみると、 距離のように「値が大きいほど遠い」という性質のあるデータを、 「値が大きいほど近い」という性質に変換すれば、 ネットワークグラフ で、可視化できるのでは、というアイディアになって来ます。
高次元データのネットワーク分析では、 距離行列による次元圧縮 と違って、座標データの再構成をしません。
そのため、低次元の座標データにすると、矛盾が発生するような場合にも柔軟に対応できます。
ネットワークグラフでは、線(エッジ)で結ばれているかどうかだけが重要です。 線を使うことで、高次元データを二次元状に展開することができます。
ただし、線が交差して見にくくなりやすいため、サンプル数が大量の場合には向きません。
「値が大きいほど遠い」を「値が大きいほど近い」に変換する方法は、
(max - x)
です。
値の性質が逆になるだけでなく、値が正の値のままになります。
筆者の場合は、グラフにする時に、この値が0から10の間に入るように変換して、線の太さを表すように使っています。
Rによる実施例は、
Rによる高次元データのネットワーク分析
のページにあります。
順路 次は 自己組織化マップ