トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

外れ値の判定

上図のようなデータの場合、外れ値が1個あるのは、グラフから簡単にわかります。

外れ値の特徴は、「大多数の分布から離れている」、「ある範囲の外」、「密度の薄いところにある」という風に表現できます。

機械的に外れ値を判定する仕組みを作るには、これらの特徴を使います。

「大多数の分布から離れている」の利用

検定の考え方を使います。正規分布と仮定し、標準化してしまえば、「3以上は外れ値とみなす」、と言った感じで判定することもできて、簡単です。

「ある範囲の外」の利用

「判定したいデータ以外のデータの最大値と最小値の範囲に入るか」、と言った感じで判定するのが簡単です。

しきい値を超えた値

現実の問題では、ある値を基準（しきい値）にして、それを超えた時を「外れ値」のように考える事もあります。外れ値の特徴として、3つ挙げましたが、下図のようにある値を境にして、外れ値かどうかが決めている場合は、「ある範囲の外」しか、特徴が当てはまりません。
異常値

一般的な統計学では扱わない話なので、いくつか例を並べてみます。

普段は、ある範囲の中に入るように制御しているのに、その範囲を超えてしまった場合
9999円までは問題なくても、10000円だと問題になる場合
水が、ある温度を境にして、氷や水蒸気になるように、ある値を境にして、ガラッと変わり、その変化が起こると問題になる場合。（水のこのような性質は「相転移」と呼ばれていて、相の境界で起きる事は「臨界現象」と呼ばれ、統計力学の大きなテーマになっています。）

「密度の薄いところにある」の利用

LOF が有名です。

多変量の場合

上記の場合、1つの変数の場合でした。「1つの変数の値が外れているか?」ではなく、「サンプルが外れているか？」を調べたい場合、複数の変数のセットについて判定する事があります。変数が1つの時よりも、難しくなります。とはいえ、考え方は同じです。

「大多数の分布から離れている」の利用

主成分分析や、 MT法で変数を要約してから、変数が1つの時の方法を使います。

「ある範囲の外」の利用

主成分分析やMT法を使う事もできますが、 One-Class SVM もあります。 One-Class SVMだと、複雑な形の範囲でも、判定できる場合があります。

「密度の薄いところにある」の利用

LOFは多変量でも使えます。

分析のデータの作り方

例えば、主成分分析を使う時ですが、判定したいデータと参照データが混ざったデータに対して主成分分析をする方法と、参照データで主成分分析をしてモデルを作ってから、そのモデルを判定したいデータに適用していく方法の2つがあります。

前者の方が手間は少ないですが、外れ値にロバストではない手法を使う場合は、前者の方法はうまくいかない可能性があります。前者を使う場合は、判定したいデータを複数混ぜずに、1つずつにした方が良いです。

後者の場合は、教師なし学習の方法を予測に使う話になるのですが、馴染みのない方法なので、下記にまとめます。

教師なし学習の使い道

教師なし学習でよく知られているのは、サンプルの仲間分けの分析に使われるものと思います。中間層を使った解析で中間層を作るものもあります。

判定したいデータと参照データを分ける使い道は、これらとはまた別の使い道になります。

ソフトの使い方

外れ値の判定のために、判定したいデータと参照データを分ける使い方は、基本的に予測のためのソフトの使い方と同じです。主成分分析の場合は、下図のようにして主成分を取り出した後に、主成分毎の分析や、 One-Class MT法の入力データとして使う、などに進めます。

下記のRapidMinerとRの使用例は、やっている事が基本的に同じです。

RapidMinerの場合

主成分分析による前処理

Read CSV　：　学習データ（参照データ）の入力
Read CSV(2)　：　テストデータ（外れを判定したいデータ）の入力
PCA　：　PCAは主成分分析のこと。ここは手法によって、取り替える。参照する分布を定義するブロック
Apply Model　：　テストデータを当てはめる
Write CSV　：　参照データがどのように定義されたのかがわかるデータを出力
Write CSV(2)　：　参照データに対して、どのような数値的関係かがわかるデータを出力

Rの場合

R の使用例は下記になります。（下記は、コピーペーストで、そのまま使えます。この例では、Cドライブの「Rtest」というフォルダに、「Data1.csv」という名前で学習データがあり、「Data2.csv」という名前でテストデータが入っている事を想定しています。

setwd("C:/Rtest") # 作業用ディレクトリを変更
Data1 <- read.table("Data1.csv", header=T, sep=",") # 学習データを読み込み
Data2 <- read.table("Data2.csv", header=T, sep=",") # テストデータを読み込み
pc <- prcomp(Data1, scale=TRUE) # 学習データを主成分分析
pc1 <- predict(pc, Data1)[,1:3] # 学習データの主成分を第３位まで作成
pc2 <- predict(pc, Data2)[,1:3] # テストデータの主成分を第３位まで作成（学習データのモデルを使うのがポイント）
write.csv(MD1, file = "pc1.csv") # 学習データの主成分をファイルに出力
write.csv(MD2, file = "pc2.csv") # テストデータの主成分をファイルに出力

極値統計

順路次は異常値の判定

杉原データサイエンス事務所によるコンサルティングとセミナー