トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

クラスター分析による外れ値の検出

クラスター分析の一般的な使い方は、サンプルの類似度の分析ですが、一部の方法については、「外れ値」というグループ（クラスター）を作ることができます。

例えば、下の図のように、3つのグループの他に、外れ値が2つあり、この2つを、3つのグループとは別のグループとして取り出したい場合です。
k-means

外れ値のモデルのページに、外れ値の判定をする時のデータの使い方として、判定したいデータと参照したいデータを混ぜる方法と、混ぜない方法を説明しています。

判定したいデータと参照したいデータを混ぜる方法として、階層型の方法とDBSCANを使うことができます。

k-means法、X-means法、混合分布については、「どのグループにも属さないようだ」ということがわかるものがないため、外れ値の出方によっては、使える場面がありますが、使いにくいです。

階層型を外れ値の検出に使う

例えば、上の例のデータのデンドログラムは下のようになります。 61番と62番のデータが、浮いた感じになっていますので、これを外れ値と考えることができます。 3つの大きなグループの他に、外れ値が2つあることから、合計で5つのグループになると考えて、k=5として、グループを求めると、狙い通りに外れ値のグループができました。
k-means k-means

DBSCAN・HDBSCANを外れ値の検出に使う

DBSCANやHDBSCANの場合、外れ値は、グループ0というグループに分類されます。
k-means

手法の違い

クラスター分析以外の外れたサンプルの探索の手法も含め、手法の違いは、外れたサンプルの探索のページにあります。

順路次はアイソレーションフォレスト

杉原データサイエンス事務所によるコンサルティングとセミナー