トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

質的変数の場合の距離

距離 は、日常的には、座標データから求めるものです。 あるいは、定規や巻尺で測ります。

一方、データサイエンスでは、扱っているデータ全般について、日常的な距離を応用した考え方で分析を進めます。

数字ではない、質的変数についても、距離の考え方を応用できます。

質的変数の場合の距離について、学術的な研究もあるようですが、ここでは、実用的と筆者が考えているアプローチを紹介します。

質的変数を扱う第一歩

質的変数を距離で扱う第一歩は、 ダミー変換 です。 質的変数を、数字のデータに変換します。

質的変数の場合の距離

ダミー変換すれば、量的変数用の距離の計算はできるようになります。 しかし、前処理は、ダミー変換以外にもしておいた方が、さらに良いです。

量質混合の潜在変数モデル を使うと、質的変数は、量的変数として作られる潜在変数で表現されます。 質的変数を扱う距離としては、このようにして作った潜在変数で、ユークリッド距離などを計算するのが、一番使い勝手が良いようです。

潜在変数同士は、相関しないように作られるので、マハラノビス距離のような高度なものではなく、ユークリッド距離で済む利点があります。

また、似たような変数は集約する効果もあります。

項目反応理論を活用する方向性

1と0だけのデータから、潜在変数を求める方法で、 ロジスティック回帰分析 に近いもので、 項目反応理論 があります。

2値変数のグループを、1つの連続変数に変換 のページにありますが、 項目反応理論 と主成分分析などでは、あまり違いはないです。 そのため、0と1のデータだからと言って、項目反応理論を使わなくても良いようです。



順路 次は 方向のある距離

Tweet データサイエンス教室