トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

サンプルの仲間分けの分析

サンプルの仲間分けの分析では、データの表を横に短冊状に切って、短冊同士の近さを見ます。
関係性の行列表現

下のようなデータがあったとします。 言葉の散布図 を作ると、C、Dの2つと、他の5つのグループに分かれるように見えます。 サンプルの仲間分けの分析では、こういったデータの見方をします。
k-means k-means

多次元の場合

上の例は、データが2次元(変数が2つ)の場合のやり方です。 2次元だと、 2次元散布図 でサンプルの仲間分けの分析ができます。

3次元以上の場合もに、2次元のすべての組合せを、2次元散布図で見てみることはできます。 しかし、この方法だとグラフがたくさんできるので、「結論はこうです」ということを直接表すグラフにはならないので、 人に説明する時に伝わりにくいです。

多変量解析データマイニング の中には3次元以上でも仲間分けができるようにする方法があります。

「高次元を2次元に圧縮して可視化する方法」と、「グループ分けの結果を教えてくれる方法」の2種類があります。

高次元を2次元に圧縮して可視化する方法

高次元を2次元に圧縮して可視化 する方法では、高次元問題を2次元問題にしていきます。 100次元あって、どうしようもない感じになっている問題でも、2次元分だけを見れば良いことになるのなら、分析できるようになります。

クラスター分析(グループ分けの結果を教えてくれる方法)

散布図を使う方法は、人が「これとこれは近い」といった検討をする時に使えます。 グループ分けをしたい時は、人がラベルを付ける必要があります。

クラスター分析 は、グループ分けの結果を自動で出してくれます。 サンプルの数が多い時に便利です。

また、クラスター分析の内、階層型の手法の場合は、デンドログラムという、散布図とはまったく違うグラフで、サンプルの近さを表現します。 このグラフは、近さの情報だけを表すこともあり、多次元の情報でも、2次元上(平面上)に表すことができます。

おすすめの方法

クラスター分析 は、多変量解析や機械学習のたいていの本で解説されているような方法ですが、実務で多次元データに使おうとすると「あれ?」となることがあります。 それは、「クラスター分析の手法が、うまくクラスターを作れたのかがわからない」、という問題です。

2次元や3次元のデータなら、クラスターがうまく作れているのかをグラフで確認できるので、 「うまく作れました」という解説をする時は、2次元や3次元のデータが使われることがあります。 手法を勉強する時は、このような確認の仕方で良いとは思うのですが、 4次元以上になって来ると、この方法が使えません。

この問題の解決策のひとつが、 決定木によるクラスタリングの分析 になるのですが、決定木の結果の見方に慣れていないと難しいです。

筆者のおすすめは、「 高次元を2次元に圧縮して可視化 の方法を使ってから、 クラスター分析 をする」 、という方法です。 これだと、 クラスター分析 が扱うデータは2次元になっているので、上記の問題が起きません。

また、 高次元を2次元に圧縮して可視化 の方法だけだと、「サンプルは3つのグループに分かれます」という説明をしたい時に、「3つのグループ」の色分けは、人がすることになるのですが、 この色分けのための情報をクラスター分析で作ることができます。

おすすめの方法のRによる実施例は、 Rによるサンプルの類似度の分析 のページにあります。




手法の使い分け

中間層を使った解析

多対多の分析



順路 次は 高次元を2次元に圧縮して可視化

Tweet データサイエンス教室