杉原データサイエンス事務所のロゴ トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

異常の予測(未来の異常検知)

予測の基本は、「次のデータは、いくつか?」という予測です。

その次のレベルとして、大きく分けて2つの方向性があります。 「次の次のデータは、いくつになるか?」という予測と、 「次のデータのばらつきは、いくつか?」という予測です。
異常検知

異常検知 として、異常を予測する方法は、予測の種類によって、違っています。

次のデータによる異常の予測

まず、「次のデータは、いくつか?」という予測による異常検知です。

例えば、2025年1月まで予測して、下のグラフだったとします。  危険ラインが65の場合、「正常の範囲内」という判断ができます。
異常検知

次のデータのばらつきによる異常の予測

次に、「次のデータの、ばらつきは、いくつか?」という予測による異常検知です。

まず、上のグラフで求めた予測値について、二乗平均平方根誤差(RMSE)の3倍を加えたデータと、引いたデータを作ります。

「二乗平均平方根誤差の3倍」とは、製造業の品質管理で「3シグマ」と呼ばれて使われている管理値の目安です。「3シグマ」は、「3σ」と書くこともあります。英語の読み方では、「スリー シグマ」ですが、筆者の周りでは、「さん シグマ」と読む人の方が多いです。

データが正規分布の場合、中心のプラス側とマイナス側のそれぞれに対して、3シグマで作った範囲には、データの99.7%が入ります。

作ったデータをグラフに加えると、下のグラフになります。 約99.7%の範囲の内側に危険ラインがあるため、「2025年1月は、危険ラインを超えるかもしれない。」という予測ができます。
異常検知

この例のようなデータの場合、次のデータの中心値を予測しても、その通りにならないことが普通です。 危険ラインよりも内側に外れてくれるのなら問題が起きませんが、外側に外れるのは困ります。

ばらつきも考慮して、範囲で予測すると、その範囲よりも外れることは、非常に起きにくいです。 そのため、範囲の予測は、とても頼りになる予測になります。

次の次以降のデータによる異常の予測

最後に、「次の次のデータは、いくつか?」という予測による異常検知です。予測値をさらに延長すると、下のグラフになります。

2025年1月は、予測値の中心は危険ラインを超えず、予測値の上側は危険ラインを超えていましたが、2月以降は、予測値の中心も危険ラインを超えることがわかります。
異常検知

次の次以降の予測ができる手法・できない手法

「次の次」というように、時間的な観点がある場合は、 時系列分析 の出番です。

なお、時系列分析の本でよく紹介されている ARMAモデルARIMAモデル などの ARモデル の系統は、基本的に「次の次」という予測ができません。 例外として、完全に多項式や三角関数に一致する曲線の場合は、ARモデルでも「次の次」の予測ができます。 また、周期性がある場合は、1周期先までの範囲なら、 SARIMAモデル は「次の次」の予測ができます。 (詳しくは、多項式とARモデルの関係三角関数とARモデルの関係を参照してください。)

「次の次」の予測をするには、トレンドを捉えられるモデルを使います。 例えば、 時系列回帰分析三重指数平滑法 があります。

ソフト

Excelで三重指数平滑法 のページで詳しく説明していますが、 Excelでは、次の次以降のデータの予測を、ばらつきの範囲付きで簡単にできるようになっています。
異常検知



順路 次は 測定


杉原データサイエンス事務所のロゴ
杉原データサイエンス事務所によるコンサルティングとセミナー