トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

近傍法

近傍法は、データのある範囲の中で、ごく一部のデータだけで目的を達成しようとする方法です。

日常生活の中で、推測をする時に、「最近の傾向」や「周辺の傾向」を参考にすることがありますが、 近傍法の考え方は、この考え方を使います。

長所と短所

近傍法は、データ全体ではなく、一部のデータだけを使いますので、局所的な推測に、有利な方法です。 YとXの関係を数式で表す事ができなくても、確からしい推測ができます。

また、データ全体を使わないので、 外れ値 の影響を受けにくいです。 ロバストな解析 のひとつとも言えます。

短所は、長所が裏目に出る話になります。 一部のデータしかみないので、近くのデータの影響を非常に受けやすくなります。

近傍法のアルゴリズムを使う手法

k近傍法

k近傍法 は、近傍のサンプルをk個選び、自身の値を推測します。

質的データの推測の場合は、近傍のサンプルの多数決になります。 ラベル分類 の方法になります。

量的データの場合は、近傍のサンプルの平均値を計算するのが一般的なようです。 「k平均法」とも呼ばれます。 回帰分析 の一種のようにして使える方法になります。

LOF

LOF は、近傍の密度(データの集まり方)から、孤立の程度を推測します。

外れたサンプルの探索 に使える方法です。

1クラス最小距離法

近傍法の一番シンプルなものは、一番近傍のサンプルとの距離を使うものになります。 上記の、k近傍法やLOFは、これよりも複雑なことをします。

クラスター分析 の階層型の最近接法は、サンプルのグループ分けに最小の距離を使うものです。

1クラス最小距離法 は、最小の距離を使って分析する 1クラスモデル です。


順路 次は k近傍法

Tweet データサイエンス教室