日常生活で「距離」と言えば、「A地点とB地点の距離」、「100メートル」といったイメージで言われるものです。
データサイエンス で「距離」と言えば、サンプル同士の近さを表す指標として使われます。 必ずしも「メートル」のような単位で表せないものもあります。
サンプルの類似度の分析 には、大きく2つの方向性があります。 両方に共通することとして、距離を扱っている点があります。 どちらの方向だとしても、距離をどのように決めるかで、結果が大きく変わって来ます。
変数が列、サンプルが行になっているテーブルデータを扱う分野にいる人にとっては、距離データは、データの中間処理で扱うことはありますが、 距離データからデータ分析をスタートする状況は、想像しにくいです。
心理を扱う分野では、データ集めに アンケート を使います。 心理関係では、「これとこれは似ていますか?」のように2つを並べて、それについてどのように思うのかを聞くと、答えやすいです。 こうして得られたデータは、2つものの関係を表すデータなので、距離データのようになっています。
「体重+身長」という計算を見たら、「この足し算はおかしい」と思うのは、常識的な知識と思います。
物理的な座標のデータではなく、データ分析で使うデータについて、「サンプルの近さを見る」という目的で、距離を計算する時には、 こういう間違いをしていることがあります。
データサイエンス の方法の中でも、例えば、 重回帰分析 の場合は、変数ごとに単位が違っても、変数ごとの単位の違いは、回帰式の係数の単位の違いになって相殺されるので、問題ないです。
ところが、距離の計算には、相殺の仕組みがないので、注意が必要です。 単位を合わせないで計算すると、「体重+身長」のような事をしてしまった意味のない数字になってしまいます。
簡単な対策としては、 標準化と正規化 が、対策になります。
多次元の距離の適正化 には、もう少し高度な対策があります。
距離 は、 サンプルの類似度の分析 に使うことが、まず、始めにできる応用です。
距離は、「近ければ近いほど、小さい」という尺度です。 「近ければ近いほど、大きい」という尺度を、変換すると、距離の尺度のようにして使えます。
相関係数 の絶対値や、相関係数の2乗は、「似ている程ほど、大きいという尺度です。 逆数にしたり、最大値が1なので、1から引くようにすると、 「似ているほど、小さい」という尺度になります。
変数の類似度の分析 に応用できます。
順路 次は ユークリッド距離とマハラノビス距離