トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

個々のカテゴリの相関分析

このページは、 アソシエーション分析 とは別のアプローチで、 個々のカテゴリの類似度の分析 をする方法です。

※このページの以下の内容は、筆者が考案したものです。 すでに同じものが世の中にあるのかもしれませんが、少なくとも筆者は知らないです。 ご存知の方は、ご教授いただけるとありがたいです。

個々のカテゴリの相関分析

このページで使うデータは、 質的データを ダミー変換 して1と0だけの量的データに変換したものです。 量的データになっているので、 相関係数 が計算できるのですが、1と0しかないので、独特の性質があります。

Aという変数に対して、1と0の位置が異なる変数をいろいろと用意して、相関係数を計算してみたのものが下図になります。 1と0の位置がまったく同じだと、1になり、それ以外では、1よりも小さくなる様子がわかります。
Decision Tree

この性質を使って、似ているカテゴリを見つけるのが、「個々のカテゴリの相関分析」になります。 一般的に相関係数を使う時は、正と負の両方の相関を見ようとしますが、この分析では、正の相関の強い時だけに注目します。

質的データを ダミー変換 して、1と0の量的データに変換してから、変数のすべての組み合わせについて、相関係数を計算します。 量的データについては、 1次元クラスタリング をして、一度、質的データにしてから、 ダミー変換 をして、元の量的データとは、違う性質を持つ量的データに変換して使います。

特徴

個々のカテゴリの相関分析の方法は、データによっては、良さそうな結果になることもあります。 ただ、多くの場合は、思ったような結果にならないようで、扱いにくい方法です。

ソフト

Rによる実施例は、 Rによる個々のカテゴリの類似度の分析 にあります。



順路 次は ラフ集合分析

Tweet データサイエンス教室