トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

個々のカテゴリの類似度の分析

教師なし学習 の手法の使い方に、データの類似度の分析があります。 サンプルの類似度の分析 や、 変数の類似度の分析 がよく知られています。

その順番で考えると、個々のカテゴリの類似度の分析は、第3の類似度の分析になります。

例えば、下のようなデータがあった時に、「A、B、C」などの同じ質的変数の中のカテゴリ同士については「別物」と考えることができます。 しかし、「A、S、O」の質的変数が異なるカテゴリの組み合わせについては、何かの関係を持っているように考えられます。 個々のカテゴリの類似度の分析アソシエーション分析個々のカテゴリの相関分析 は、こうした組み合わせを見つけるための分析方法です。 決定木 と相補的な使い方ができます。
Decision Tree

ラフ集合分析 は、教師あり学習として使われ、出力は 決定木 と似ていますが、 アソシエーション分析 と似た手法を使っています。

筆者は使いこなせていませんが、 コレスポンデンス分析と数量化V類 も、個々のカテゴリの類似度の分析として役に立ちそうです。

個々のカテゴリの相関性

個々のカテゴリの類似度の分析では、個々のカテゴリの相関性の大きさで仲間分けをします。

食品のデータの例で言えば、いちごと練乳は、一緒になっている事が多いので、「相関が高い」と言えます。 ちなみに、 テキストマイニングでは、「共起(きょうき)」と呼ばれます。

質的な変数同士では、相関が高くなくても、個々の質的データの相関は高い場合もあります。 この解析は、個々の部分に注目する解析に向いているので、 データマイニングにも使えます。 アソシエーション分析個々のカテゴリの相関分析コレスポンデンス分析 は、こういった関係を調べています。

食品のデータ

ソフトウェア

質的なデータの相関性には2種類ありますので、基本的に、使う手法も違います。

Natto」というフリーソフトでは、質的な変数の相関性と、個々のカテゴリの相関性の両方が分析できるようになっています。 量的な変数が混ざっていると質的な変数に変換して分析できます。

同じデータについて、左の図が、質的な変数の相関性で、右の図が、個々のカテゴリの相関性の結果です。
nattoの例 nattoの例

データの非対称性

食品のデータで、練乳から見ると、練乳はいちごと必ずペアになっているのに、 いちごから見ると、いちごは必ずしも練乳とペアになっていません。 これが「非対称性」です。

これを使うと、「もしも練乳を買えば、いちごも買う。」という、if-thenルールができます。 販売戦略等では、 アソシエーション分析 を使ってこういう解析をしているようです。

ただし、このルールだけでは、いちごを買う理由は他にもある可能性は残っています。 また、いちごは買うが、練乳は買わない人の話はしていません。

データの非対称性を因果関係の考察で使う場合は、if-thenルールだけでは不十分です。 この辺りの詳細は、 if-thenルールと因果関係の関係 にまとめています。

データの非対称性は、この例のように、個々の質的データで相関性が高い部分の話がわかりやすいです。

相関性の尺度

例えば、AとBいう変数に、それぞれカテゴリが10個ずつあって、変数間の相関が高い時と、 カテゴリが2個ずつで、相関が高い時では、意味合いが違っています。

このあたりの違いも考慮するために、 Natto では、 情報理論 を使っています。



参考文献

Natto のサイトには、ソフトのダウンロードや、理論の解説があります。


順路 次は アソシエーション分析

Tweet データサイエンス教室