高次元を2次元に圧縮して可視化する方法は、ただの圧縮ではなく、「2次元に圧縮」という点が特徴です。
変数の類似度の分析 の場合は、調べたいものが変数の類似度なので、例えば、4次元に圧縮されれば、「このデータは4種類の変数を特徴にしている」ということがわかることで、 次のアクションにつながります。
サンプルの類似度の分析 の場合、4次元データから、サンプルの類似度を考察しようとすると、変数同士の組合せから総合的に考えることになり、自分は理解できても、 自分以外の人と理解の共有が難しいです。
そのため、 サンプルの類似度の分析 では、2次元まで圧縮することが重要になります。
次元圧縮の方法としては、 主成分分析 が有名ですが、主成分分析は、「2次元に圧縮」というようにアルゴリズムがなっていないです。 3次元よりも多い時もあります。
ただし、元のデータの特徴が1種類や2種類なら、結果的に、1次元や2次元に圧縮できることはあります。
距離行列による次元圧縮 では、工夫することで、2次元に圧縮します。
多次元尺度構成法 や、tSNE、UMAPでは、「近くのサンプルが近くに配置できていれば良い。」と考えることで、ただの次元圧縮だと、3次元以上になるデータでも、 2次元まで圧縮できるようにしています。
立方体のひとつの頂点からは、3つの方向に同じ距離の頂点があります。 これらの頂点の位置関係は、3次元で表されます。
ここで、「同じ距離」という事だけで考えれば、3つの頂点は同等です。
そこで、同じ距離という事だけがわかれば良いのなら、1次元や、2次元でもこの関係は表現できます。 高次元データのネットワーク分析 では、このようなアイディアで、高次元データを2次元グラフにすることを可能にしています。
データの中に、「目的変数と説明変数」、「原因系と結果系」という区別が最初からある場合、この情報を元にします。 ゴールにする2次元は、「目的変数と説明変数」や「原因系と結果系」が、それぞれ1次元ずつに圧縮されることを目指します。
回帰分析系で高次元を2次元に圧縮 や 正準相関分析で高次元を2次元に圧縮 は、このようなアプローチをしています。
順路 次は 高次元を2次元に圧縮する方法の比較