杉原データサイエンス事務所のロゴ トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

アイソレーションフォレスト(IsolationForest)

アイソレーションフォレスト(IsolationForest)は、 外れ値検知 に特化した方法です。 外れ値かどうかだけを見分けます。

このサイトでは、出力が似ていることから、 クラスター分析による外れ値の検出 の一種として分類していますが、一般的には、 クラスター分析 として紹介されないです。

アイソレーションフォレストのアプローチ

クラスター分析近傍法 では、サンプル間の距離で近さを判断しますが、アイソレーションフォレストは距離を使いません。 その代わりに、「距離が離れていれば、こうなっているはずだ」ということを使います。

下のグラフでは、1点だけが外れています。 このようなデータの場合、縦でも横でも良いので、真ん中当たりで1本直線を引くと、外れ値とそれ以外を分けられます。 外れていない方のグループについては、直線で分けるには、たくさんの線が必要になります。 このように線を引くアプローチは、 決定木 と同じなので、決定木の一種でもあります。
IsolationForest

アイソレーションフォレストでは、「簡単に分離できるサンプルほど外れている」と考えることで、外れ値を検出します。

アイソレーションフォレストの特徴

アイソレーションフォレストの長所

距離を使う方法では、サンプル間のすべての組み合わせに対して距離を計算するので、計算量が大きいです。

一方、アイソレーションフォレストは、一度学習してしまえば、あとは引いた線のどちら側なのかを調べるだけで、外れ方が計算できます。 そのため、高速計算に適しています。

アイソレーションフォレストの短所

アイソレーションフォレストは、現実の課題に活用しにくい方法です。 線のどちら側なのかを調べるだけなので、線からどれくらい離れているのかは無関係です。 明らかに外れているサンプルの判定では問題がないのですが、あいまいな領域に対して、精度が低いです。

例えば、下の例では、右上の明らかに外れているサンプルは、「×」なので、外れ値として検出できています。 10,10あたりを中心にして、塊があり、その周りに外れているサンプルが6個ありますが、これらのうち5個は、外れ値として判定され、1個は正常値として判定されています。

6個全部を外れ値とするか、あるいは正常値とするかにした方が良さそうですが、そのような結果にはならないです。
IsolationForest

下の例では、まず、真ん中に縦に並んだ3つの外れ値が、正しく検出されているのは良いのですが、それらの真ん中のサンプルは、スコアが正常値の集団とあまり変わりません。 また、正常値のグループが、左右に2つ並んでいるように見えますが、正常値のグループの中にも外れ値が検出されています。
IsolationForest



順路 次は クラスター分析による予測


杉原データサイエンス事務所のロゴ
杉原データサイエンス事務所によるコンサルティングとセミナー