トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

LOF

LOF(Local Outlier Factor)はデータの密度を計算して、密度が非常に低い所に現れたデータを、 外れ値 と判断します。

「外れ値は、データの領域の中で発生確率の低い領域のもの」という考え方を使っています。

密度を計算する時に、外れ値かどうかを判断したいデータの周辺のデータとの距離を見るため、 k近傍法 のアイディアが入っています。

LOFのメリット

データ全体を何らかの式で表してから、外れ値かどうかを判断する方法は、 式がうまく作れないような複雑なデータには、使えません。

LOFは、局所的なデータだけで外れ値かどうかを判断するので、データ全体が複雑な分布をしていても、気にせず使えます。

LOFは名前にOutlier(外れ値)とあるように外れ値の検出の方法として有名ですが、 異常値の判定 の方法としての使い道もあります。

ソフト

R

Rの実施例は、 Rによる異常の定量化の分析 のページにあります。

RapidMiner

RapidMinerでは、Data Cleaningの中に、Outlier(外れ値)検出の方法としてLOFがあります。



参考文献

フリーソフトではじめる機械学習入門」 荒木雅弘 著 森北出版 2014
機械学習 全般の本です。
異常(外れ値)かどうかを判断する方法として、LOFが紹介されています。 Wekaでの方法がのっています。




順路 次は 1クラス最小距離法

Tweet データサイエンス教室