トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

外れ値ではない異常値のモデル

外れ値のモデル の方法は、異常値のモデルにも使えます。

しかし、すべての異常値が外れ値として判定できるかというと、そうでもありません。

異常値
例えば、上図のデータの場合、SINカーブの中に、変な値が入っています。 このデータは、SINカーブの値の範囲を基準にすると、外れ値としては判定できません。

しかし、上記の例の場合については、 データに何らかの加工をして、 外れ値のモデル が使えるようにしてしまう事ができます。

このページは、 外れ値のモデル が使えない異常値について、外れ値の方法に持ち込んで、判定する方法の話です。

予実差による方法

予実差というのは、定と際の差ですが、ここでは予測値とデータの差の意味合いです。

上記の場合では、SINカーブだったら出るであろう値が予測値になります。

異常と思っているところ以外は、この予実差が小さな値になり、異常と思っているところは大きくなりますので、外れ値の判定方法が使えるようになります。

予実差の分析に使う「予測値」

予実差の分析に使う「予測値」は、「正常な場合の予測値」です。 何を正常と考えるかで、いろいろなものが作れます。

例えば、 自己単相関 がある場合は、「1ステップ前のデータ」を予測値とする事もできます。

また、 回帰分析 などの、 教師あり学習 の方法を使う場合、 1クラスモデル の考え方を使って正常な時のデータだけで、モデルを作ると、この予測値が作れます。

異常期間かどうかの判定

「異常が変数間の関係性の変化に表れている」という異常もあります。

こうした異常の場合は、1行単位でバラバラに処理する方法では、異常性がうまく表現できない事があります。

このような場合は、 移動分析 を使って、一定期間分のデータの関係性を1行のデータとして表すと、外れ値の判定方法が使えるようになります。

SPC

伝統的に、 品質学 の分野では、 SPC(統計的工程管理) が発達しています。

その手法のひとつの 管理図 では、ひとつの変数について、異常状態の検知の仕方が定められています。

考え方としては、値の増減の仕方が同じ母集団から発生したものと言えるかどうかで判断します。

異常のモデルの難しさ

このページの内容は、 工夫すれば、 外れ値のモデル異常のモデル として使える方法です。

異常のモデル のページにありますが、実際に異常の現象を扱う時は、データだけでは解決しないことがあります。 データサイエンス の題材としては面白いのですが、解決までの道のりはそれなりに大変です。

正常状態の定義の難しさ

すでに起こった異常状態と比べながら、 正常状態を定義するのは、比較的簡単です。

過去に起こった事のない異常の予測は大変です。 定義した時には、想定外だったとしても、正常状態として定義したものの延長で予測できてしまうのなら良いのですが、 延長ではないものの時は、どうしようもありません。 あらゆる異常状態を想定して、それを検知する方法を準備する必要があります。

信頼性工学のFMEAやFTA は、体系的に想定しようとする手法です。



二重測定による判別能力の向上

異常状態の工程解析

極値統計

参考文献

入門 機械学習による異常検知」 井手剛 著 コロナ社 2015
機械学習 によって異常の検知をします。
異常検知の基本的な流れは、
ステップ1 : 分布の推定
ステップ2 : 異常度の定義
ステップ3 : 閾値の設定
としています。
ホテリング理論は、異常検出の基本となるべき理論であるが、とてつもなく難しく、 また、適用できるケースが限定的、とのことです。 ホテリング理論の応用が、 MT法 になるそうです。
異常を検知できると、次に異常の原因を知りたくなりますが、 それができるシステムを作るよりも、どの変数がどれだけおかしいのかをエンジニアに伝えられるシステムを作る方が現実的、とのことです。
主成分分析 を使った異常検知も紹介されています。
この本は、各手法のRのコードも付いています。


異常検知と変化検知」 井手剛、杉山将 著 講談社 2015
k近傍法 やネットワークの変化、密度比を使う方法があります。


時系列解析 自己回帰型モデル・状態空間モデル・異常検知」 島田直希 著 共立出版 2019
タイトルに「 時系列解析 」とありますが、このサイトで言うところの 自己相関分析 の内容が中心です。
一昔前の時系列解析の本とは異なり、異常検知にもページを割いています。
自己相関分析 に、 移動分析 のアイディアを入れて、データの全期間ではなく区間を使うアイディアがありました。 直前の区間のデータから直近のデータの予測値を計算し、その実測値の差の大きさから異常性を判断します。


ProVision No.65」 日本アイ・ビー・エム 2013
「センサーデータによる状態監視技術」という題名で井手剛氏の記事があります。
MT法 は、値が一定値になるようなシステムには有効ですが、 平均値にあたる量が動的に変わるシステムに使えない、としています。
MT法に代わるものとして、 ANACONDA(IBM Anomaly Analyzer for Correlational Data)を紹介しています。 グラフィカル・ガウシアンモデル(GGM)という古くからあるモデルを、 近年の技術革新で実用化したもの、とのことです。


ProVision No.78」 日本アイ・ビー・エム 2010
「スパース構造学習によるセンサー・データの変化点検出と異常解析」という題名で井手剛氏の記事があります。
時間軸上で、範囲を区切って、相関関係の ネットワーク 構造の変化を見ていき、相関関係の変化の仕方から異常を見つける方法が紹介されています。


データマイニングによる異常検知」 山西健司 著 共立出版 2009
ステップ1 : 既存のデータから、確率モデルを学習
ステップ2 : モデルを使って、データの異常度合い、または、モデルの異常変化の度合いをスコアリング
としています。
この本は、「外れ値検出」、「変化点検出」、「異常行動検出」の3手法を扱っています。
これらは、「独立モデル」、「時系列モデル」、「行動モデル」にそれぞれが対応して、よりダイナミックなモデルになっています。
この本自体は、検出エンジン集や、アルゴリズム集のような構成になっています。


フリーソフトではじめる機械学習入門」 荒木雅弘 著 森北出版 2014
機械学習 全般の本です。
異常(外れ値)かどうかを判断する方法として、 LOF が紹介されています。


日本型“AI(人工知能)”ビジネスモデル」 大野治 著 日刊工業新聞社 2017
MT法 の紹介の後に、MT法の弱点として正常状態が単純な分布ではいけないことを挙げ、ノンパラメトリックな方法を紹介をしています。 しかし、ノンパラメトリックな異常検知の方法には、一般的や弱点として、計算時間が長い事と、学習データがたくさん必要な事があります。 ただし、局所部分空間法(LSC)はこの弱点をあまり気にしなくて良いそうです。


センシングの基礎」 山崎弘郎 著 岩波書店 2005
センサーそのものの原理の話もありますが、センサーのデータがどのようなもので、どのように扱うのかの話も多いです。
さらに勉強するための文献の中に、「生体内の分散監視・防衛システム」(免疫システム」の文献があります。
現在の異常検出システムは、「予測できる異常しか検出できない」、という弱点がある。これが知能化の限界。 一方、人体は免疫システムは、未知の異常を「異常」と細胞レベルで検出して、排除する。 この判断では、分子レベルで自分と同じかどうかで、異常かどうかが判断される。
このような免疫システムを、センシングシステムの観点から述べています。


生体内の分散監視・防衛システム 電気学会論文誌 107(11)」 藤田 博之. 合原 一幸 著 電気学会論文誌 1987
免疫には、多重性、分散性、記憶能力、自己組織化能力がある事を解説した後に、工学に応用するアイデアが解説されています。
「怪しげな音源の付近に群がっていく習性をもった、微小で自走できるセンサ」
「運転期間中、ずっと学習しながら、事故を引き起こす原因を予測し続けるシステム(事故は、さまざまな要因の組み合わせと仮定している)」


量子状態の異常検知

機械学習を用いた量子状態異常検知 量子統計モデリングのための基盤構築」 京都大学数理解析研究所 2017
原聡氏の記事で、密度行列の異常検知の方法として、ED3(Erroneous Deviation Detector for Density matrices)が紹介されています。


人工知能」 人工知能学会 2015
「機械学習による情報論的量子状態の異常検知」という、鷲尾隆氏の記事があります。
量子を情報論的に表現するところから始まり、平均値法より、ED3が良いという話になっています。


順路 次は 測定

Tweet データサイエンス教室