トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

外れ値のモデル

外れ値
上図のようなデータの場合、 外れ値 が1個あるのは、グラフから簡単にわかります。

外れ値の特徴は、 「大多数の分布から離れている」、 「ある範囲の外」、 「密度の薄いところにある」という風に表現できます。

機械的に外れ値を判定する仕組みを作るには、これらの特徴を使います。

「大多数の分布から離れている」の利用

検定 の考え方を使います。 正規分布 と仮定し、 標準化 してしまえば、「3以上は外れ値とみなす」、と言った感じで判定することもできて、簡単です。

「ある範囲の外」の利用

「判定したいデータ以外のデータの最大値と最小値の範囲に入るか」、と言った感じで判定するのが簡単です。

しきい値を超えた値

現実の問題では、ある値を基準(しきい値)にして、それを超えた時を「外れ値」のように考える事もあります。 外れ値の特徴として、3つ挙げましたが、下図のようにある値を境にして、 外れ値かどうかが決めている場合は、「ある範囲の外」しか、特徴が当てはまりません。
異常値

一般的な統計学では扱わない話なので、いくつか例を並べてみます。

多変量の場合

上記の場合、1つの変数の場合でした。 「1つの変数の値が外れているか?」ではなく、「サンプルが外れているか?」を調べたい場合、複数の変数のセットについて判定する事があります。 変数が1つの時よりも、難しくなります。 とはいえ、考え方は同じです。

「大多数の分布から離れている」の利用

主成分分析 や、 MT法 で変数を要約してから、変数が1つの時の方法を使います。

「ある範囲の外」の利用

主成分分析やMT法を使う事もできますが、 One-Class SVM もあります。 One-Class SVMだと、複雑な形の範囲でも、判定できる場合があります。

外れたサンプルの探索の方法を、予測に使う

外れたサンプルの探索 の方法が、外れ方の予測に使うこともできます。 例えば、 LOF は、上記の「密度の薄いところにある」の方法として使うことができます。

ただし、 外れたサンプルの探索 の方法は、大多数のサンプルから、外れているものが複数あった場合、それらもひとつのグループと見なし、 「外れていない」と判定する性質があることに注意する必要があります。

予測に使う外れ値のモデルは、 1クラスモデル になりますが、 1クラスモデル は、大多数のサンプルを明確に区別して扱うので、こうした注意はいらないです。



極値統計

順路 次は 1クラスモデル

Tweet データサイエンス教室