トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

高次元データのネットワーク分析

距離行列による次元圧縮 が扱うのは、「距離」なので「値が大きいほど遠い」という性質があります。 値が小さい関係のあるものは、近くになるように、2次元座標を計算できます。 そして、この座標データを使ってグラフを作れます。

ところで、 ネットワーク分析 では、「値が大きいほど近い」という性質を持つデータを扱います。 ネットワークグラフ では、値が大きい関係のあるものは、近くになるようにグラフが作られます。

このように考えてみると、 距離のように「値が大きいほど遠い」という性質のあるデータを、 「値が大きいほど近い」という性質に変換すれば、 ネットワークグラフ で、可視化できるのでは、というアイディアになって来ます。

座標データを再構成する方法との違い

高次元データのネットワーク分析では、 距離行列による次元圧縮 と違って、座標データの再構成をしません。

そのため、低次元の座標データにすると、矛盾が発生するような場合にも柔軟に対応できます。

ネットワークグラフでは、線(エッジ)で結ばれているかどうかだけが重要です。 線を使うことで、高次元データを二次元状に展開することができます。

ただし、線が交差して見にくくなりやすいため、サンプル数が大量の場合には向きません。

「値が大きいほど遠い」を「値が大きいほど近い」に変換する方法

「値が大きいほど遠い」を「値が大きいほど近い」に変換する方法は、
(max - x)
です。 値の性質が逆になるだけでなく、値が正の値のままになります。

筆者の場合は、グラフにする時に、この値が0から10の間に入るように変換して、線の太さを表すように使っています。

ソフト

Rによる実施例は、 Rによる高次元データのネットワーク分析 のページにあります。
mds



順路 次は 自己組織化マップ

Tweet データサイエンス教室