トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

サンプルの仲間分けの分析

教師なし学習 には、変数の仲間分けをする系統があります。 この系統では、 多変量データの相関分析主成分分析 が代表的です。 サンプルの仲間分けの分析は、教師なしの学習の、もうひとつの系統です。

ちなみに、「クラスター分析」という名前は、 サンプルの仲間分けの分析全般に対して、広い意味で使われる事もあります。

サンプルとは

多変量解析データマイニング で使うデータは表形式を出発にします。 縦方向のデータの並びは「変数」と呼ばれます。

「サンプル」とは横方向の並びの事です。

データを集める時は、場所ごと、時刻ごと、人ごと、といった観点で集めますが、サンプルとは、場所、時刻、人、と言った情報になります。 教師ありの学習や、変数の仲間分けをする教師なしの学習では、サンプルの情報は使いませんので、データに入っていない事もあります。 サンプルの仲間分けの分析では、このデータを主役として使います。

サンプルの仲間分けの分析の威力

サンプルの仲間分けや、「クラスターを作る」というとピンと来ないですが、 この分析は、複雑な大量のデータを分かりやすく理解する事に役立ちます。

多対多の分析 でも、データを要約する技として重宝されています。

手法の違い

サンプルの仲間分けの手法には、 自己組織化マップクラスター分析多対多の分析主成分分析 があります。

基準のあり・なし

主成分分析は、まず主成分を決めて、それを軸にして、各サンプルの位置を配置して、サンプルの近さを見ます。 トピックモデルも、これに近いことをしているようです。

自己組織化マップとクラスター分析は、近くに配置されれば近いサンプルと言う意味にはなりますが、グラフの方向には意味がありません。

人の介入

クラスター分析の内、非階層型と呼ばれるものは、「仲間分けはこうです」と言う結果をはっきり出します。 他の手法は、「一応こっちに分類するけど、こっちに入れるのも悪くないかもしれない。」といった考察のできる出力です。

主成分分析

主成分分析 には、変数の仲間分けと、サンプルの仲間分けの両方の使い方があります。

ただ、 正規分布 を前提にした理論なので、前提が当てはまらないデータは不得意です。




手法の使い分け

中間層を使った解析

多対多の分析



順路 次は 自己組織化マップ

Tweet