トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

質的変数の場合の距離

距離 は、日常的には、座標データから求めるものです。 あるいは、定規や巻尺で測ります。

一方、データサイエンスでは、扱っているデータ全般について、日常的な距離を応用した考え方で分析を進めます。

数字ではない、質的変数についても、距離の考え方を応用できます。

質的変数の場合の距離について、学術的な研究もあるようですが、ここでは、実用的と筆者が考えているアプローチを紹介します。

ダミー変換を使う距離

ダミー変換 をして、量的変数に変えると、例えば、 ユークリッド距離 のような量的変数の距離が計算できるようになります。

量質混合の潜在変数モデル を使うと、質的変数は、量的変数として作られる潜在変数で表現されます。 質的変数を扱う距離としては、このようにして作った潜在変数で、ユークリッド距離などを計算するのが、一番使い勝手が良いようです。

潜在変数同士は、相関しないように作られるので、マハラノビス距離のような高度なものではなく、ユークリッド距離で済む利点があります。

また、似たような変数は集約する効果もあります。

項目反応理論を使う距離

1と0だけのデータから、潜在変数を求める方法で、 ロジスティック回帰分析 に近いもので、 項目反応理論 があります。

2値変数のグループを、1つの連続変数に変換 のページにありますが、 項目反応理論 と主成分分析などでは、あまり違いはないです。 そのため、0と1のデータだからと言って、項目反応理論を使わなくても良いようです。

相互情報量を使う距離

相互情報量 も、質的変数の距離として使えます。



順路 次は 方向のある距離

データサイエンス教室