トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

サンプルの仲間分けの分析

下のようなデータがあったとします。 言葉の散布図 を作ると、C、Dの2つと、他の5つのグループに分かれるように見えます。 サンプルの仲間分けの分析では、こういったデータの見方をします。
k-means k-means

この例は、データが2次元(変数が2つ)だったので、 2次元散布図 が使えるのですが、3次元以上になると、こんなに簡単ではなくなります。 しかし、 多変量解析データマイニング の中には、3次元以上でも仲間分けができるようにする方法があります。

手法の違い

サンプルの仲間分けの分析には、多次元の分析方針に違いがあります。

2次元散布図の分析ができるようにする方法

自己組織化マップ主成分分析 といった手法では、高次元問題を低次元問題にしていきます。 100次元あって、どうしようもない感じになっている問題でも、1〜4次元分だけを見れば良いことになるのなら、分析できるようになります。

特に 自己組織化マップ については、多少無理があってでも多次元のデータの散らばり方を、2次元の散らばり方に変換します。 2次元散布図ヒートマップ などの2次元のグラフで分析できるようになります。(計算量が非常に長くなる弱点はあります。)

グループ分けの結果を教えてくれる方法

散布図を使う方法は、人が「これとこれは近い」といった検討をする時に使えます。 グループ分けをしたい時は、人がラベルを付ける必要があります。

クラスター分析 は、グループ分けの結果を自動で出してくれます。 サンプルの数が多い時に便利です。

また、クラスター分析の内、階層型の手法の場合は、デンドログラムという、散布図とはまったく違うグラフで、サンプルの近さを表現します。 このグラフは、近さの情報だけを表すこともあり、多次元の情報でも、2次元上(平面上)に表すことができます。

サンプルの仲間分けをする時のデータの見方

分析でやっていることを頭に置きながら、データの表を見ると、 サンプルの仲間分けというのは、 表を横に短冊状に切って、短冊同士の類似度を見ていることがわかるかと思います。

3次元以上というのは、この短冊が長くなった時になります。

ちなみに、データの表を縦に短冊状に切って、短冊同士の類似度を見る方法もあります。 サンプルではなく、変数の仲間分けに使われます。 多変量データの相関分析 はこの方法です。 また、上記の 主成分分析 は、サンプルの仲間分けの分析だけでなく、変数の仲間分けにも使えます。 主成分分析の使い方は、 どちらかと言えば、変数の仲間分けの使い方の方が、有名と思います。

さらに脱線すると、 機械学習 には、手法の分類の仕方として、 教師ありと教師なしの学習 という考え方がありますが、 サンプルの仲間分けや、変数の仲間分けの手法というのは、 「教師なし学習の手法」という点が共通しています。




手法の使い分け

中間層を使った解析

多対多の分析



順路 次は 自己組織化マップ

Tweet データサイエンス教室