トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

距離

日常生活で「距離」と言えば、「A地点とB地点の距離」、「100メートル」といったイメージで言われるものです。

データサイエンス で「距離」と言えば、サンプル同士の近さを表す指標として使われます。 必ずしも「メートル」のような単位で表せないものもあります。

サンプルの類似度の分析 には、大きく2つの方向性があります。 両方に共通することとして、距離を扱っている点があります。 どちらの方向だとしても、距離をどのように決めるかで、結果が大きく変わって来ます。

よくある間違い

「体重+身長」という計算を見たら、「この足し算はおかしい」と思うのは、常識的な知識と思います。

物理的な座標のデータではなく、データ分析で使うデータについて、「サンプルの近さを見る」という目的で、距離を計算する時には、 こういう間違いをしていることがあります。

データサイエンス の方法の中でも、例えば、 重回帰分析 の場合は、変数ごとに単位が違っても、変数ごとの単位の違いは、回帰式の係数の単位の違いになって相殺されるので、問題ないです。

ところが、距離の計算には、相殺の仕組みがないので、注意が必要です。

単位が異なる変数の対策

簡単な対策としては、 標準化と正規化 が、対策になります。

多次元の距離の適正化 には、もう少し高度な対策があります。

疑似距離

距離 は、 サンプルの類似度の分析 に使うことが、まず、始めにできる応用です。

距離は、「近ければ近いほど、小さい」という尺度です。 「近ければ近いほど、大きい」という尺度を、変換すると、距離の尺度のようにして使えます。

相関係数

相関係数 の絶対値や、相関係数の2乗は、「似ている程ほど、大きいという尺度です。 逆数にしたり、最大値が1なので、1から引くようにすると、 「似ているほど、小さい」という尺度になります。

変数の類似度の分析 に応用できます。



順路 次は ユークリッド距離とマハラノビス距離

Tweet データサイエンス教室