杉原データサイエンス事務所のロゴ トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

時系列データの外れ値

異常検知
上のグラフは、1ヶ月ごとの推移を表しています。 2025年1月が最新データですが、過去よりも高めです。 この最新データが、「異常」と言えるかどうかを判定する問題があります。

上の例のように、平均値が一定とみなせるような時系列データについては、 管理図 による判定方法があります。

異常検知
上の例については、折れ線グラフではなく、ヒスグラムでも、外れ値かどうかの判定はできます。

外れていないけれども外れているデータ

最新のデータをグラフに加えたら、下のグラフになったとします。

最新のデータは、40です。 「過去のデータは、0から60までの範囲」という考え方をすると、最新のデータは、その範囲に入っていて、「正常」ということになります。

しかし、グラフを見ると、直近のデータは上昇傾向なので、60よりも高いくらいが正常で、「40」というのは、異常のように見えます。 一般的な 異常検知 は、分布を想定して、「外側ならば異常」というようにして判定しますが、 時系列データの場合は、「分布の外側が正常」ということもあります。
異常検知

外れ値ではない異常値のモデルは、正常をどのように定義するかがポイントですが、 時系列 の情報があるデータだと、その情報を活用できます。

外れていないけれども外れているデータの判定

管理図 にある 3シグマによる異常の判定 では、平均値と標準偏差が一定なことを想定しています。 「平均値と標準偏差が一定」を変更することで、3シグマによる異常判定を、一定ではないデータにも使えます。

下の例の場合は、平均値に相当するものを、多項式(3次曲線)で求めています。 標準偏差は一定と想定して、標準偏差に相当するものは、 RMSE を使っています。
異常検知

2019年1月から2024年12月までの実測値は、0から60の範囲にあるので、その範囲と比べるのなら、2025年1月の「40.0」という実測値は、正常値です。

しかし、2025年1月について、予測した範囲と比べるのなら、予測した範囲の外側になるので、「2025年1月は、異常値」という判定ができます。

比べる範囲によって、正常と異常の判定が変わる点がポイントです。目的によって使い分けます。 例えば、「2025年1月について、予測した範囲と比べると、範囲の外側になったのは、コントロールしきれていない何かが起きたのではないか?」という考察ができます。

異常期間かどうかの判定

「異常が変数間の関係性の変化に表れている」という異常があります。 例えば、「普段は、相関のない2つの変数が、異常の時は相関している」という場合です。

こうした異常の場合は、1行単位でバラバラに処理する方法では、異常性がうまく表現できない事があります。

このような場合は、 移動分析 を使って、関係性のデータを作ると、関係性の外れとして、外れ値の判定方法が使えるようになります。



順路 次は 残差の外れ値


杉原データサイエンス事務所のロゴ
杉原データサイエンス事務所によるコンサルティングとセミナー