累積寄与率連関係数

累積寄与率連関係数というのは、質的変数同士の関係の強さの尺度として、筆者が作ってみたものです。

クラメールの連関係数や正規化相互情報量と同じように使えることを期待していたのですが、いくつか試したところ、だいぶ違う振る舞いをすることがわかりました。

とりあえずは、記録として、このサイトに書きましたが、使い道はわからないでいます。

アルゴリズム

多重共線性があるので、「カテゴリの数 - 1」個の変数が、元の質的変数と同じものになっています。

例えば、２つの質的変数があって、いずれもカテゴリの数が３個あったとします。もしも、２つの質的変数がまったく同じなら、ダミー変換して作った変数２個ずつのセットで、同じかどうかを判断できるはずです。

そこから応用して、カテゴリの数が異なる場合は、２つの質的変数について「カテゴリの数 - 1」の大きい方までの個数の累積寄与率を求めることにしました。

２つの変数に入っているカテゴリの名前は違いますが、下の例だと、AとSは必ずセットですし、BとTは必ずセットです。これが「構造が同じ」という場合です。

１になります。
correlation

0.5になります。この点が、クラメールの連関係数や正規化相互情報量との、大きな違いになります。
correlation

Rによる累積寄与率連関係数のページのコードで、累積寄与率連関係数の検証をしています。