距離

日常生活で「距離」と言えば、「A地点とB地点の距離」、「100メートル」といったイメージで言われるものです。

データサイエンスで「距離」と言えば、サンプル同士の近さを表す指標として使われます。必ずしも「メートル」のような単位で表せないものもあります。

サンプルの類似度の分析には、大きく２つの方向性があります。両方に共通することとして、距離を扱っている点があります。どちらの方向だとしても、距離をどのように決めるかで、結果が大きく変わって来ます。

距離データがスタートになるデータ分析

変数が列、サンプルが行になっているテーブルデータを扱う分野にいる人にとっては、距離データは、データの中間処理で扱うことはありますが、距離データからデータ分析をスタートする状況は、想像しにくいです。

心理を扱う分野では、データ集めにアンケートを使います。心理関係では、「これとこれは似ていますか？」のように２つを並べて、それについてどのように思うのかを聞くと、答えやすいです。こうして得られたデータは、２つものの関係を表すデータなので、距離データのようになっています。

「体重＋身長」という計算を見たら、「この足し算はおかしい」と思うのは、常識的な知識と思います。

物理的な座標のデータではなく、データ分析で使うデータについて、「サンプルの近さを見る」という目的で、距離を計算する時には、こういう間違いをしていることがあります。

データサイエンスの方法の中でも、例えば、重回帰分析の場合は、変数ごとに単位が違っても、変数ごとの単位の違いは、回帰式の係数の単位の違いになって相殺されるので、問題ないです。

ところが、距離の計算には、相殺の仕組みがないので、注意が必要です。単位を合わせないで計算すると、「体重＋身長」のような事をしてしまった意味のない数字になってしまいます。

簡単な対策としては、標準化と正規化が、対策になります。

多次元の距離の適正化には、もう少し高度な対策があります。

距離は、サンプルの類似度の分析に使うことが、まず、始めにできる応用です。

距離は、「近ければ近いほど、小さい」という尺度です。「近ければ近いほど、大きい」という尺度を、変換すると、距離の尺度のようにして使えます。

相関係数の絶対値や、相関係数の２乗は、「似ている程ほど、大きいという尺度です。逆数にしたり、最大値が１なので、１から引くようにすると、「似ているほど、小さい」という尺度になります。