トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

多次元尺度構成法

多次元尺度構成法は、距離行列による次元圧縮 の方法の中で、おそらく一番古いものです。

多次元尺度構成法のもともとの使い道

もともとは、次元圧縮の方法ではなく、「近いほど値が小さい」という性質を持った一対比較のデータの分析方法として開発されたようです。 「近いほど値が小さい」という性質を持った一対比較のデータのひとつが、距離行列です。

このようなデータから、座標データを導き出す方法として開発されています。

例を挙げると、 東京-新潟間・東京-横浜間・東京-福島間・新潟-横浜間・新潟-福島間・横浜-福島間の距離のデータを入力すると、 それぞれの都市の座標の値が出力されます。 つまり、距離だけを見ても全体の関係はわかりませんが、地図を眺めるような感じで、全体像がわかるようになります。

なお、一口に「多次元尺度構成法」といっても、いろいろな計算方法が考案されています。 数量化W類 もそのひとつです。

次元圧縮の方法として

今は、高次元を次元圧縮する時の中間処理に距離行列を使う使い方の方が、よく知られているようです。

多次元尺度構成法のアルゴリズム

多次元尺度構成法には、種類がありますが、一番基本的なものの手順は、以下のようになっています。

多次元尺度構成法の中の主成分分析

非線形のための主成分分析 のページに、主成分分析は、内積の行列を固有値分析している方法なことを、書いています。

つまり、上記で、「内積の行列を固有値分析して、座標データを作る」という部分からは、 主成分分析 とまったく同じ手順になります。

例えば、データから距離行列を求めて多次元尺度構成法をした場合と、 データから共分散行列を求めて主成分分析した場合では、結果が同じになります。

多次元尺度構成法の種類

「多次元尺度構成法」には、種類があります。 一番紹介されているのは、おそらく上記のもので、距離行列をスタートにした主成分分析です。 Rでは、cmdscaleがこれです。

距離行列をスタートにした主成分分析で圧縮できるのは、 似た変数を1つにまとめる圧縮です。 そのため、3次元以上に、圧縮することもあります。

Rのsammonだと、多少無理してでも、2次元にまとめる方法になっています。

ソフト

Rによる距離行列の位置分析には、距離行列をスタートにした多次元尺度構成法の例があります。

Rによる距離行列からの主成分分析には、距離行列を内積にしてから固有値分析に進む場合の例があります。 このページでは、距離行列から内積を作った場合と、直接内積を作った場合で同じなることをRで確認した例もあります。

Rによる高次元を2次元に圧縮して可視化 には、テーブルデータをスタートにした多次元尺度構成法の例があります。




参考文献

多変量データ解析法 理論と応用」 柳井晴夫 著 朝倉書店 1994
多次元尺度法のところで、距離行列から内積を求めるヤング・ハウスホルダー変換を紹介


バイオスタティスティクス基礎論」  岩田洋佳 著
距離行列と内積の関係についての説明があります。
https://www.iu.a.u-tokyo.ac.jp/lectures/AG03/20160422.pdf


順路 次は 高次元データのネットワーク分析

データサイエンス教室