トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

クラスタリングの原因分析

クラスター分析をする時に悩むところは２つあります。

１つは、３次元以上で非階層型のクラスター分析をすると、グループ分けとデータの関係を見ることに適したグラフがないことです。この悩み事の解決法として、２次元散布図を使ったクラスター分析はあるのですが、この方法はどちらかと言うと、サンプル数が少ない時に向いています。

悩みどころのもう１つは、２次元散布図を使ったクラスター分析では難しいことには、クラスタリングの結果がそうなった理由がわからない点です。クラスター分析のアルゴリズムは探索的にクラスターを作るので、結果として、どのようなクラスターになるのかはわかるのですが、「どうしてこのクラスターになるのか？」ということが、わからないです。

これらの２つの悩み事の解決策として、決定木が役に立ちます。なお、決定木を使う方法では、個々のサンプルを詳しく見ることはできないので、２次元散布図を使ったクラスター分析とは、相補的な関係になります。

やり方

手順としては、クラスター分析で作ったクラスターの情報を、目的変数として、ラベル分類の手法を使うことになります。

教師なし学習のデータに対して、教師あり学習の手法を使う分析方法の一種になります。

決定木の利用

ラベル分類の手法なら、決定木以外でも使えなくはないのですが、決定木には、「目的変数が質的変数で、しかも、多クラスでも良い」、「分析結果の説明性がある」という特徴があるので、このアプローチには便利です。

クラスター分析の結果（クラスターの番号等）を目的変数にして、クラスター分析で使ったデータを説明変数にして、決定木を実行します。

すると、クラスターがどのように分けられているのかが、決定木の結果からわかります。

ソフト

R

Rによる実施例は、 Rによるクラスタリングの原因分析のページにあります。
Decision Tree

R-EDA1

R-EDA1 では、混合分布法やDBSCANをすると、C5.0による決定木分析が出てくるようになっています。
Decision Tree

順路次は次元削減クラスタリング分析