トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

距離

日常生活で「距離」と言えば、「A地点とB地点の距離」、「100メートル」といったイメージで言われるものです。

データサイエンス で「距離」と言えば、サンプル同士の近さを表す指標として使われます。 必ずしも「メートル」のような単位で表せないものもあります。

サンプルの類似度の分析 には、大きく2つの方向性があります。 両方に共通することとして、距離を扱っている点があります。 どちらの方向だとしても、距離をどのように決めるかで、結果が大きく変わって来ます。

距離データがスタートになるデータ分析

変数が列、サンプルが行になっているテーブルデータを扱う分野にいる人にとっては、距離データは、データの中間処理で扱うことはありますが、 距離データからデータ分析をスタートする状況は、想像しにくいです。

心理を扱う分野では、データ集めに アンケート を使います。 心理関係では、「これとこれは似ていますか?」のように2つを並べて、それについてどのように思うのかを聞くと、答えやすいです。 こうして得られたデータは、2つものの関係を表すデータなので、距離データのようになっています。

よくある間違い

「体重+身長」という計算を見たら、「この足し算はおかしい」と思うのは、常識的な知識と思います。

物理的な座標のデータではなく、データ分析で使うデータについて、「サンプルの近さを見る」という目的で、距離を計算する時には、 こういう間違いをしていることがあります。

データサイエンス の方法の中でも、例えば、 重回帰分析 の場合は、変数ごとに単位が違っても、変数ごとの単位の違いは、回帰式の係数の単位の違いになって相殺されるので、問題ないです。

ところが、距離の計算には、相殺の仕組みがないので、注意が必要です。 単位を合わせないで計算すると、「体重+身長」のような事をしてしまった意味のない数字になってしまいます。

単位が異なる変数の対策

簡単な対策としては、 標準化と正規化 が、対策になります。

多次元の距離の適正化 には、もう少し高度な対策があります。

疑似距離

距離 は、 サンプルの類似度の分析 に使うことが、まず、始めにできる応用です。

距離は、「近ければ近いほど、小さい」という尺度です。 「近ければ近いほど、大きい」という尺度を、変換すると、距離の尺度のようにして使えます。

相関係数

相関係数 の絶対値や、相関係数の2乗は、「似ている程ほど、大きいという尺度です。 逆数にしたり、最大値が1なので、1から引くようにすると、 「似ているほど、小さい」という尺度になります。

変数の類似度の分析 に応用できます。



順路 次は ユークリッド距離とマハラノビス距離

データサイエンス教室