質的変数の場合の距離

距離は、日常的には、座標データから求めるものです。あるいは、定規や巻尺で測ります。

一方、データサイエンスでは、扱っているデータ全般について、日常的な距離を応用した考え方で分析を進めます。

数字ではない、質的変数についても、距離の考え方を応用できます。

質的変数の場合の距離について、学術的な研究もあるようですが、ここでは、実用的と筆者が考えているアプローチを紹介します。

ダミー変換を使う距離

ダミー変換をして、量的変数に変えると、例えば、ユークリッド距離のような量的変数の距離が計算できるようになります。

量質混合の潜在変数モデルを使うと、質的変数は、量的変数として作られる潜在変数で表現されます。質的変数を扱う距離としては、このようにして作った潜在変数で、ユークリッド距離などを計算するのが、一番使い勝手が良いようです。

潜在変数同士は、相関しないように作られるので、マハラノビス距離のような高度なものではなく、ユークリッド距離で済む利点があります。

また、似たような変数は集約する効果もあります。

１と０だけのデータから、潜在変数を求める方法で、ロジスティック回帰分析に近いもので、項目反応理論があります。

２値変数のグループを、１つの連続変数に変換のページにありますが、項目反応理論と主成分分析などでは、あまり違いはないです。そのため、０と１のデータだからと言って、項目反応理論を使わなくても良いようです。

相互情報量も、質的変数の距離として使えます。