トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

カテゴリの相関分析

カテゴリの類似度の分析 をする方法です。

※このページの以下の内容は、筆者が考案したものです。 すでに同じものが世の中にあるのかもしれませんが、少なくとも筆者は知らないです。 ご存知の方は、ご教授いただけるとありがたいです。

カテゴリの相関分析

このページで使うデータは、 質的データを ダミー変換 して1と0だけの量的データに変換したものです。 量的データになっているので、 相関係数 が計算できるのですが、1と0しかないので、独特の性質があります。

Aという変数に対して、1と0の位置が異なる変数をいろいろと用意して、相関係数を計算してみたのものが下図になります。 1と0の位置がまったく同じだと、1になり、それ以外では、1よりも小さくなる様子がわかります。
Decision Tree

この性質を使って、似ているカテゴリを見つけるのが、「個々のカテゴリの相関分析」になります。 一般的に相関係数を使う時は、正と負の両方の相関を見ようとしますが、この分析では、正の相関の強い時だけに注目します。

質的データを ダミー変換 して、1と0の量的データに変換してから、変数のすべての組み合わせについて、相関係数を計算します。 量的データについては、 1次元クラスタリング をして、一度、質的データにしてから、 ダミー変換 をして、元の量的データとは、違う性質を持つ量的データに変換して使います。

特徴

個々のカテゴリの相関分析の方法は、データによっては、良さそうな結果になることもあります。 ただ、多くの場合は、思ったような結果にならないようで、扱いにくい方法です。

質的変数の相関性の方が、扱いやすい

個々のカテゴリの相関分析は、質的変数と量的変数が混ざっている場合の分析方法として使えますが、上記のように使いにくいです。

筆者の経験の話になりますが、 質的変数と量的変数が混ざっている場合は、質的変数を ダミー変換 して量的変数として扱うよりも、 量的データを質的データに変換 を使って、 質的変数の相関性 として分析する方が、良かったです。

ソフト

Rによる実施例は、 Rによる個々のカテゴリの相関分析 にあります。



順路 次は アソシエーション分析

データサイエンス教室