トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

クラスター分析（高次元を１次元に圧縮して可視化）

クラスター分析は、サンプルの類似度の分析の一種です。この分析をすると、データのグループ（クラスター）を作ることができます。例えば、左の散布図は、3つのグループに分かれそうに見えますが、この方法を使うと、それぞれのサンプルのグループ分けを、ソフトが自動的にやってくれます。作られたグループの情報を使えば、色分けもできます。
k-means k-means

クラスター分析の弱点

クラスター分析は、多変量解析や機械学習のたいていの本で解説されているような方法ですが、実務で多次元データに使おうとすると「あれ？」となることがあります。それは、「クラスター分析の手法が、うまくクラスターを作れたのかがわからない」、という問題です。

２次元や３次元のデータなら、クラスターがうまく作れているのかをグラフで確認できるので、「うまく作れました」という解説をする時は、２次元や３次元のデータが使われることがあります。手法を勉強する時は、このような確認の仕方で良いとは思うのですが、４次元以上になって来ると、この方法が使えません。

この問題の解決策のひとつが、クラスタリングの原因分析になります。

クラスター分析の活用

「高次元を２次元に圧縮して可視化の方法を使ってから、クラスター分析をする」、という方法があります。これだと、クラスター分析が扱うデータは２次元になっているので、上記の問題が起きません。

また、高次元を２次元に圧縮して可視化の方法だけだと、「サンプルは３つのグループに分かれます」という説明をしたい時に、「３つのグループ」の色分けは、人がすることになるのですが、この色分けのための情報をクラスター分析で作ることができます。

この方法については、２次元散布図を使ったクラスター分析のページがあります。

ソフト

Rによる実施例は、 Rによるサンプルの類似度の分析のページにあります。

順路次はクラスター分析の方法

杉原データサイエンス事務所によるコンサルティングとセミナー