多次元の距離の適正化

データサイエンスで距離を扱う時は、ポイントがいくつかあります。

これらの扱い方次第で、分析結果が大きく変わります。

単位合わせ

距離のページにも書いていますが、距離の計算では、変数同士を係数を使わずに、足し合わせるので、単位が異なる変数が混ざっていると計算できません。

ソフトでは、エラーが出ずに計算できてしまいますが、数字の大きな変数の影響が大きく出るという特徴がある無意味な数字になります。

単位が異なる変数が混ざっていると場合は、標準化と正規化が対策になります。

多次元の距離を使って調べたいことは、サンプルの違いです。その時に、似たような変数があると、その変数のグループの特徴に偏った分析になります。そういう場合は、主成分分析などで集約しておくと良いです。

多次元の距離の性質のページで、変数が多い分析では、判断に必要なサンプル数が増大してしまう弱点のある話があります。変数の集約は、この対策にもなります。

このサイトでは、主成分MT法という方法を紹介しています。

MT法では、マハラノビスの距離を使って分析するのですが、この距離を計算する前に、主成分分析でデータを前処理しておく方法です。

主成分MT法では、強調していませんが、距離の計算の前に、主成分分析をしておくと、似た変数を集約することができます。

主成分分析などで前処理をすると、知りたい特徴を出しやすくなります。

ここでさらに考えられる点は、主成分分析における主成分の求め方です。

主成分分析では、第１主成分から順に寄与率が高くなるように決まっています。

知りたい特徴が、第２主成分以下に入っている場合、うまく見えないことがあります。この対策として、主成分に標準化や正規化があります。