トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

2次元散布図を使ったクラスター分析

クラスター分析の方法 には、階層型と非階層型あり、階層型は結果がデンドログラムというグラフで出てくるので、これを使って分析を進めることができます。

ところが非階層型については、標準的なグラフがありません。 2次元データなら 2次元散布図 でどのようにグループ分けが行われたのかを見ることができるのですが、3次元以上になると、わからなくなります。

このページは、その対策になります。

データを2次元にしてからクラスター分析をする方法

高次元を2次元に圧縮して可視化 を使うと、多次元のデータを2次元のデータに変換できます。 この時に、多次元にある特徴が、2次元で見えるようになります。

2次元になってしまえば、冒頭の問題が解決します。

高次元を2次元に圧縮して可視化 のページに、2次元マップの結果をクラスター分析で色分けする話がありますが、 手順はそれと同じです。

多次元データでクラスター分析してから、2次元に変換されたデータを使ってグラフを作る方法

上の方法では、 クラスター分析 が扱うデータは、2次元に変換されたものになっているので、クラスター分析の方法で3次元以上のデータを扱える能力が使われていません。

この能力を使う方法として、グラフ用のデータだけを2次元にする方法があります。

手順としては、上記と逆で、高次元を2次元に圧縮する前に、クラスター分析をします。

この方法の場合、2次元散布図で近くに配置されるサンプルと、 クラスター分析で同じクラスターに分類されるサンプルが違うこために、考察に困ることがあります。

決定木の利用

このページの方法は、どちらかというと、サンプル数が少ない時に適しています。 また、このページの方法では、「クラスタリングは、なぜ、そうなったのか?」ということがわかりません。

これらの弱点を補完する方法としては、 クラスタリングの原因分析 があります。



順路 次は クラスタリングの原因分析

Tweet データサイエンス教室