距離の関係を保って２次元に圧縮する方法

高次元を２次元に圧縮して可視化では、距離を使う方法がメジャーです。

距離による次元圧縮の流れ

自己組織化マップ（SOM）以外は、考え方が似ています。

多次元尺度構成法（MDS）、tSNE、UMAPでは、多次元の距離を、２次元の距離と考えて、その距離が計算されるような２次元座標を求めます。

データが数個のグループに分かれている場合は、多次元を２次元に再配置しても、大きな矛盾は発生しないです。

ところで、高次元を２次元に圧縮する方法では、近いサンプルがどのくらい近いのかが重要で、遠いサンプルがどのくらい遠いのかは気にしないことがあります。この特徴を利用して、tSNE、UMAPでは、近さの精度が上がるように、配置されます。

多次元尺度構成法を使うと、多次元を２次元で見ることができます。ここで作られる２次元データは、数字の大きさに意味がありません。

ちなみに、多次元尺度構成法と似た方法に、比や差による一対評価があります。この方法も多次元尺度構成法のcmdscaleと同じで、行列の固有値解析をするのですが、面白いことに、得られた数字（固有ベクトル）の大きさには意味があります。この性質が AHP で使われます。

Rによる実施例は、 Rによる高次元を２次元に圧縮して可視化のページにあります。

R-EDA1による実施例は、 R-EDA1によるUScitiesDとeurodistの分析のページにあります。