トップページ |
ひとつ上のページ |
目次ページ |
このサイトについて | ENGLISH
上のグラフは、1ヶ月ごとの推移を表しています。
2025年1月が最新データですが、過去よりも高めです。
この最新データが、「異常」と言えるかどうかを判定する問題があります。
上の例のように、平均値が一定とみなせるような時系列データについては、 管理図 による判定方法があります。
上の例については、折れ線グラフではなく、ヒスグラムでも、外れ値かどうかの判定はできます。
最新のデータをグラフに加えたら、下のグラフになったとします。
最新のデータは、40です。 「過去のデータは、0から60までの範囲」という考え方をすると、最新のデータは、その範囲に入っていて、「正常」ということになります。
しかし、グラフを見ると、直近のデータは上昇傾向なので、60よりも高いくらいが正常で、「40」というのは、異常のように見えます。
一般的な
異常検知
は、分布を想定して、「外側ならば異常」というようにして判定しますが、
時系列データの場合は、「分布の外側が正常」ということもあります。
外れ値ではない異常値のモデルは、正常をどのように定義するかがポイントですが、 時系列 の情報があるデータだと、その情報を活用できます。
管理図 にある 3シグマによる異常の判定 では、平均値と標準偏差が一定なことを想定しています。 「平均値と標準偏差が一定」を変更することで、3シグマによる異常判定を、一定ではないデータにも使えます。
下の例の場合は、平均値に相当するものを、多項式(3次曲線)で求めています。
標準偏差は一定と想定して、標準偏差に相当するものは、
RMSE
を使っています。
2019年1月から2024年12月までの実測値は、0から60の範囲にあるので、その範囲と比べるのなら、2025年1月の「40.0」という実測値は、正常値です。
しかし、2025年1月について、予測した範囲と比べるのなら、予測した範囲の外側になるので、「2025年1月は、異常値」という判定ができます。
比べる範囲によって、正常と異常の判定が変わる点がポイントです。目的によって使い分けます。 例えば、「2025年1月について、予測した範囲と比べると、範囲の外側になったのは、コントロールしきれていない何かが起きたのではないか?」という考察ができます。
「異常が変数間の関係性の変化に表れている」という異常があります。 例えば、「普段は、相関のない2つの変数が、異常の時は相関している」という場合です。
こうした異常の場合は、1行単位でバラバラに処理する方法では、異常性がうまく表現できない事があります。
このような場合は、 移動分析 を使って、関係性のデータを作ると、関係性の外れとして、外れ値の判定方法が使えるようになります。
順路
次は
残差の外れ値
