距離 は、日常的には、座標データから求めるものです。 あるいは、定規や巻尺で測ります。
一方、データサイエンスでは、扱っているデータ全般について、日常的な距離を応用した考え方で分析を進めます。
数字ではない、質的変数についても、距離の考え方を応用できます。
質的変数の場合の距離について、学術的な研究もあるようですが、ここでは、実用的と筆者が考えているアプローチを紹介します。
ダミー変換 をして、量的変数に変えると、例えば、 ユークリッド距離 のような量的変数の距離が計算できるようになります。
量質混合の潜在変数モデル を使うと、質的変数は、量的変数として作られる潜在変数で表現されます。 質的変数を扱う距離としては、このようにして作った潜在変数で、ユークリッド距離などを計算するのが、一番使い勝手が良いようです。
潜在変数同士は、相関しないように作られるので、マハラノビス距離のような高度なものではなく、ユークリッド距離で済む利点があります。
また、似たような変数は集約する効果もあります。
1と0だけのデータから、潜在変数を求める方法で、 ロジスティック回帰分析 に近いもので、 項目反応理論 があります。
2値変数のグループを、1つの連続変数に変換 のページにありますが、 項目反応理論 と主成分分析などでは、あまり違いはないです。 そのため、0と1のデータだからと言って、項目反応理論を使わなくても良いようです。
相互情報量 も、質的変数の距離として使えます。
順路 次は 方向のある距離