トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

MT法による異常の判定

MT法の手順 のページでは、 単位空間 と信号空間のそれぞれについて、 マハラノビスの距離 (MD)を求めています。

異常状態の判定 にMT法を使うためには、もう一段階、やる事があります。

サンプルファイル には、3つの方法による判定の機能も付けました。

判定するデータの前処理

まず、 MT法の手順 で変数の選択をして変数を絞った単位空間のデータを使います。

判定したいデータは、新しい単位空間のデータと変数の種類を合わせます。

あとは、判定したいデータを信号空間のデータの代わりに使って、判定したいデータのMDを計算します。

そして、下記の判定方法で判定します。

データ重視の方法(最大値法)

MT法 では、 単位空間 は、「正常のデータ」と考えますので、素直に 「単位空間のMDの最大値よりも大きければ異常」と考えるアプローチです。

実際のデータは、きれいな分布をしない事が多いので、筆者自身としては、この方法が良い事が多いです。

単位空間のMDの最大値よりも大きければ、「C」と判定する事にします。 当然の事ながら、単位空間(学習データ)のMDが「C」と判定される事はありません。 「C」に判定される可能性があるのは、信号空間(テストデータ)のデータです。

参考までに、「A」と「B」の判定も考案しました。 両方とも、単位空間の範囲には入りますので、「正常」の判定です。 単位空間のMDの平均値は、「1」になりますので、1よりも大きいかどうかが「A」と「B」 の違いになります。 単位空間のMDが「A」ばかりの場合、「B」と判定されたデータは、 異常に外れているデータの可能性があります。

下の図は、この方法のイメージです。
異常値の判定

統計学的な判定方法(カイ二乗法)

見た目でもわかりますが、 マハラノビスの距離 の分布は、 正規分布から作られるけど、正規分布ではない分布 の一種になります。
異常値の判定

この分布は、カイ二乗分布で近似して、異常値の判定ができそうです。

MT法で使うMDは マハラノビスの距離 のページの定義4なので、カイ二乗分布そのままではなく、カイ二乗分布を変数の数で割った値の分布と考えます。

このMDの右側の累積確率は、Excelでは、
=CHIDIST(MD*変数の数,変数の数)
で計算する事ができます。

品質工学での判定方法

文献がわからないのですが、ネットで見かけた情報では、 品質工学 の中では、
MD > 4
が、異常かどうかの判定基準になっているようです。

カイ二乗法の図で、X=4の位置の累積確率は、変数が多いほど、限りなく1に近付いている事がわかります。

MT法では、変数の数で割った値をMDとして使うので、変数の数が変わっても、ひとつの値で判定する事が可能になっているようです。



異常値の判定


順路 次は One-Class MT法

Tweet データサイエンス教室