トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

高次元を2次元に圧縮する方法

高次元を2次元に圧縮して可視化する方法は、ただの圧縮ではなく、「2次元に圧縮」という点が特徴です。

変数の類似度の分析 の場合は、調べたいものが変数の類似度なので、例えば、4次元に圧縮されれば、「このデータは4種類の変数を特徴にしている」ということがわかることで、 次のアクションにつながります。

サンプルの類似度の分析 の場合、4次元データから、サンプルの類似度を考察しようとすると、変数同士の組合せから総合的に考えることになり、自分は理解できても、 自分以外の人と理解の共有が難しいです。

そのため、 サンプルの類似度の分析 では、2次元まで圧縮することが重要になります。

主成分分析

次元圧縮の方法としては、 主成分分析 が有名ですが、主成分分析は、「2次元に圧縮」というようにアルゴリズムがなっていないです。 3次元よりも多い時もあります。

ただし、元のデータの特徴が1種類や2種類なら、結果的に、1次元や2次元に圧縮できることはあります。

距離データを使う方法

距離行列による次元圧縮 では、工夫することで、2次元に圧縮します。

多少無理があってでも、高次元データを2次元データに圧縮

多次元尺度構成法 や、tSNE、UMAPでは、「近くのサンプルが近くに配置できていれば良い。」と考えることで、ただの次元圧縮だと、3次元以上になるデータでも、 2次元まで圧縮できるようにしています。

グラフで2次元にする

立方体のひとつの頂点からは、3つの方向に同じ距離の頂点があります。 これらの頂点の位置関係は、3次元で表されます。

ここで、「同じ距離」という事だけで考えれば、3つの頂点は同等です。

そこで、同じ距離という事だけがわかれば良いのなら、1次元や、2次元でもこの関係は表現できます。 高次元データのネットワーク分析 では、このようなアイディアで、高次元データを2次元グラフにすることを可能にしています。

変数の意味を使う方法

データの中に、「目的変数と説明変数」、「原因系と結果系」という区別が最初からある場合、この情報を元にします。 ゴールにする2次元は、「目的変数と説明変数」や「原因系と結果系」が、それぞれ1次元ずつに圧縮されることを目指します。

回帰分析系で高次元を2次元に圧縮正準相関分析で高次元を2次元に圧縮 は、このようなアプローチをしています。



順路 次は 高次元を2次元に圧縮する方法の比較

データサイエンス教室