トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

累積寄与率連関係数

累積寄与率連関係数というのは、質的変数同士の関係の強さの尺度として、筆者が作ってみたものです。

クラメールの連関係数相互情報量係数 と同じように使えることを期待していたのですが、いくつか試したところ、だいぶ違う振る舞いをすることがわかりました。

とりあえずは、記録として、このサイトに書きましたが、使い道はわからないでいます。

アルゴリズム

カテゴリの数が多い方の、「カテゴリの数 - 1」個までにした理由

多重共線性 があるので、「カテゴリの数 - 1」個の変数が、元の質的変数と同じものになっています。

例えば、2つの質的変数があって、いずれもカテゴリの数が3個あったとします。 もしも、2つの質的変数がまったく同じなら、ダミー変換して作った変数2個ずつのセットで、同じかどうかを判断できるはずです。

そこから応用して、カテゴリの数が異なる場合は、2つの質的変数について「カテゴリの数 - 1」の大きい方までの個数の累積寄与率を求めることにしました。

累積寄与率連関係数の性質

2つの変数の構造が同じ場合

2つの変数に入っているカテゴリの名前は違いますが、下の例だと、AとSは必ずセットですし、BとTは必ずセットです。 これが「構造が同じ」という場合です。

1になります。
correlation

2つの変数が独立している場合

0.5になります。 この点が、 クラメールの連関係数相互情報量係数 との、大きな違いになります。
correlation correlation

ソフト

R

Rによる累積寄与率連関係数 のページのコードで、累積寄与率連関係数の検証をしています。



順路 次は 要約分析と分解分析の違い

Tweet データサイエンス教室