LOF(Local Outlier Factor)はデータの密度を計算して、密度が非常に低い所に現れたデータを、 外れ値 と判断します。
「外れ値は、データの領域の中で発生確率の低い領域のもの」という考え方を使っています。
密度を計算する時に、外れ値かどうかを判断したいデータの周辺のデータとの距離を見るため、 k近傍法 のアイディアが入っています。
データ全体を何らかの式で表してから、外れ値かどうかを判断する方法は、 式がうまく作れないような複雑なデータには、使えません。
LOFは、局所的なデータだけで外れ値かどうかを判断するので、データ全体が複雑な分布をしていても、気にせず使えます。
LOFは名前にOutlier(外れ値)とあるように外れ値の検出の方法として有名ですが、 異常値の判定 の方法としての使い道もあります。
Rの実施例は、 Rによる異常の近傍法分析 と Rによる外れたサンプルの探索 のページがあります。
「フリーソフトではじめる機械学習入門」 荒木雅弘 著 森北出版 2014
機械学習
全般の本です。
異常(外れ値)かどうかを判断する方法として、LOFが紹介されています。
Wekaでの方法がのっています。
順路 次は 1クラス最小距離法