教師なし学習 の手法の使い方に、データの類似度の分析があります。 サンプルの類似度の分析 や、 変数の類似度の分析 がよく知られています。
その順番で考えると、個々のカテゴリの類似度の分析は、第3の類似度の分析になります。
例えば、下のようなデータがあった時に、「A、B、C」などの同じ質的変数の中のカテゴリ同士については「別物」と考えることができます。
しかし、「A、S、O」の質的変数が異なるカテゴリの組み合わせについては、何かの関係を持っているように考えられます。
個々のカテゴリの類似度の分析の
アソシエーション分析
、
個々のカテゴリの相関分析
は、こうした組み合わせを見つけるための分析方法です。
決定木
と相補的な使い方ができます。
ラフ集合分析 は、教師あり学習として使われ、出力は 決定木 と似ていますが、 アソシエーション分析 と似た手法を使っています。
筆者は使いこなせていませんが、 コレスポンデンス分析と数量化V類 も、個々のカテゴリの類似度の分析として役に立ちそうです。
個々のカテゴリの類似度の分析では、個々のカテゴリの相関性の大きさで仲間分けをします。
食品のデータの例で言えば、いちごと練乳は、一緒になっている事が多いので、「相関が高い」と言えます。 ちなみに、 テキストマイニングでは、「共起(きょうき)」と呼ばれます。
質的な変数同士では、相関が高くなくても、個々の質的データの相関は高い場合もあります。 この解析は、個々の部分に注目する解析に向いているので、 データマイニングにも使えます。 アソシエーション分析 や 個々のカテゴリの相関分析 、 コレスポンデンス分析 は、こういった関係を調べています。
質的なデータの相関性には2種類ありますので、基本的に、使う手法も違います。
「Natto」というフリーソフトでは、質的な変数の相関性と、個々のカテゴリの相関性の両方が分析できるようになっています。 量的な変数が混ざっていると質的な変数に変換して分析できます。
同じデータについて、左の図が、質的な変数の相関性で、右の図が、個々のカテゴリの相関性の結果です。
食品のデータで、練乳から見ると、練乳はいちごと必ずペアになっているのに、 いちごから見ると、いちごは必ずしも練乳とペアになっていません。 これが「非対称性」です。
これを使うと、「もしも練乳を買えば、いちごも買う。」という、if-thenルールができます。 販売戦略等では、 アソシエーション分析 を使ってこういう解析をしているようです。
ただし、このルールだけでは、いちごを買う理由は他にもある可能性は残っています。 また、いちごは買うが、練乳は買わない人の話はしていません。
データの非対称性を因果関係の考察で使う場合は、if-thenルールだけでは不十分です。 この辺りの詳細は、 if-thenルールと因果関係の関係 にまとめています。
データの非対称性は、この例のように、個々の質的データで相関性が高い部分の話がわかりやすいです。
例えば、AとBいう変数に、それぞれカテゴリが10個ずつあって、変数間の相関が高い時と、 カテゴリが2個ずつで、相関が高い時では、意味合いが違っています。
このあたりの違いも考慮するために、 Natto では、 情報理論 を使っています。
Natto のサイトには、ソフトのダウンロードや、理論の解説があります。
順路
次は
アソシエーション分析