統計学 には、古くから 検定 の理論があり、これは異常検知の理論として使えます。 一方、 パターン認識 の分野では、異常検知が比較的新しい理論として紹介されることが多いようです。
上記は、学術的な話ですが、実際の異常検知では、扱うことが「異常」なので、学術的に研究されていることの他にも考えることがあります。
異常を扱う 因果推論 には独特の難しさがあります。
例えば、いつもは20〜25℃になっている部屋の温度が、35℃だったとします。
すると、「部屋の温度が異常」ということはわかります。 そのため、部屋の温度が上がると困るのなら、この温度の監視は意味があります。
この時、35℃になった原因は、「エアコンを止めていたから」、「エアコンが壊れたから」、「エアコンの設定温度を変えたから」、 「室外の温度が異常に上がって、エアコンの能力が足らなかったから」ということのどれかであることは推測できますが、原因の特定はできません。 そのため、知りたいことが温度が異常かどうかではなく、これらのどれかが起こったことの場合は、温度を監視しているだけでは不足しています。
また、「窓が開けっ放しかどうかの検知をするのに、部屋の温度を見ることにしよう」というアイディアを出すのは悪くないとは思いますが、 部屋の広さに対して、窓が非常に小さければ、窓の開閉と部屋の温度は関係が弱いので、おそらくこのアイディアは使えません。 アイディアが使えるかどうかは、確認が必要になります。
異常のモデルは、「異常」と思っていることが、 外れ値 として、扱えるようにします。
もともとあるデータで、異常が外れ値として見えている場合は、そのまま外れ値のモデルを使えます。 外れ値として見えていない場合は、外れ値のモデルが使えるような工夫が必要になります。
順路 次は 外れ値のモデル