上図のようなデータの場合、
外れ値
が1個あるのは、グラフから簡単にわかります。
外れ値の特徴は、 「大多数の分布から離れている」、 「ある範囲の外」、 「密度の薄いところにある」という風に表現できます。
機械的に外れ値を判定する仕組みを作るには、これらの特徴を使います。
検定 の考え方を使います。 正規分布 と仮定し、 標準化 してしまえば、「3以上は外れ値とみなす」、と言った感じで判定することもできて、簡単です。
「判定したいデータ以外のデータの最大値と最小値の範囲に入るか」、と言った感じで判定するのが簡単です。
現実の問題では、ある値を基準(しきい値)にして、それを超えた時を「外れ値」のように考える事もあります。
外れ値の特徴として、3つ挙げましたが、下図のようにある値を境にして、
外れ値かどうかが決めている場合は、「ある範囲の外」しか、特徴が当てはまりません。
一般的な統計学では扱わない話なので、いくつか例を並べてみます。
上記の場合、1つの変数の場合でした。 「1つの変数の値が外れているか?」ではなく、「サンプルが外れているか?」を調べたい場合、複数の変数のセットについて判定する事があります。 変数が1つの時よりも、難しくなります。 とはいえ、考え方は同じです。
主成分分析 や、 MT法 で変数を要約してから、変数が1つの時の方法を使います。
主成分分析やMT法を使う事もできますが、 One-Class SVM もあります。 One-Class SVMだと、複雑な形の範囲でも、判定できる場合があります。
外れたサンプルの探索 の方法が、外れ方の予測に使うこともできます。 例えば、 LOF は、上記の「密度の薄いところにある」の方法として使うことができます。
ただし、 外れたサンプルの探索 の方法は、大多数のサンプルから、外れているものが複数あった場合、それらもひとつのグループと見なし、 「外れていない」と判定する性質があることに注意する必要があります。
予測に使う外れ値のモデルは、 1クラスモデル になりますが、 1クラスモデル は、大多数のサンプルを明確に区別して扱うので、こうした注意はいらないです。
順路 次は 1クラスモデル