トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

状態解析

時系列データの時刻や時間の情報は使わずに、時系列データを 多変量解析 で使うようなデータセットと考えて使う 時系列解析 は特に名前がないようです。 このサイトでは、「状態解析」と呼んでおくことにしています。

外れ値と欠損値 の処理は必要ですが、それ以外は、特にデータの加工が必要ありませんので、 状態解析は、他の時系列解析の手法と比べると比較的簡単にできます。

状態解析は、説明変数と目的変数の関係を調べる使い方ができます。 また、目的変数がわかるのに時間がかかる時に、目的変数を予測するために使う使い方もあります。

モデルの劣化問題

過去のデータを使って、非常に当てはまりの良いモデルを作ったのに、 だんだん予測と実際が合わなくなって来ることがあり、「モデルの劣化」と言われています。 モデルの劣化は、「 時間的な外挿の落とし穴 」のページの話と同じです。

劣化問題の対策

劣化問題の対策としては、予測をする時は、できるだけ最新モデルを使う方法があります。

過去のデータに新しいデータを足して、モデルを作り直すよりは、 「現時点から3か月前まで」と言った風に期間を決めて作り直す方が良いようです。 後者は、MWモデルや、JITモデル(Just-In-Time)と呼ばれています。

ちなみに、このアイディアを広げて、モデルの変化を見る方法としてデータの期間によってモデルを作るのが、 移動分析 です。

参考文献

状態解析は、「ソフトセンサー」の分野で精力的に研究が進められています。 ソフトセンサーは、製品や設備の状態を測りたいけれども、測る事が難しかったり、時間やコストの制約がある時に、 別の測定値を使って、知りたい値を推定する技術です。


化学のためのPythonによるデータ解析・機械学習入門」 金子弘昌 著 オーム社 2019
材料設計や化学工場の分析に、 回帰分析主成分分析t-SNE を使っています。
時系列データの分析として扱っているのがソフトセンサーで、これは、温度や圧力を説明変数として、化学物性を目的変数にする回帰モデル。
モデルの汎用性のテストのために、学習データとテストデータに分けることがありますが、 ソフトセンサーの場合は、ランダムサンプリングしてこのデータ分けはせず、時間で区切って、古いものを学習データ、新しいものをテストデータにします。 こうすると、実際の運用に近いテストになります。
異常検出には、主成分分析や、 T2統計量 を使っています。


ソフトセンサー入門 基礎から実用的研究例まで」 船津公人、金子弘昌 著 コロナ社 2014
ソフトセンサー構築の意義や、手法、一般的な問題点の解説が4割位で、残りは研究事例です。 研究事例には、下記の論文の内容もありました。
最終章は、「ケモメトリックス」として、 PCA(主成分分析)ICA(独立成分分析) 、PLS等の数理をコンパクトに紹介しています。


分離技術 39(3) 特集 分離技術における計算化学の最近の進歩」 分離技術会 2009
「プラント運転の安定化と効率化を目指したソフトセンサー技術」というタイトルで、金子弘昌氏と 船津公人氏の論文があります。
異常値があるとモデルがおかしくなるため、 ICA(独立成分分析) で独立成分を抽出し、 その中からSVMで異常値を検出するための成分を抽出するアプローチを紹介しています。
異常値を把握してから、PLSで蒸留塔を分析した例があります。
また、ソフトセンサーで反応の終了を予測して、「規格外」と誤って判定される製品を減らす例もあります。


Journal of computer chemistry 11(1-4):2012.12 日本コンピュータ化学会10周年記念特集号(2)」 日本コンピュータ化学会 2012
「モデルの予測信頼性を考慮した適応的ソフトセンサー手法の開発」というタイトルで、岡田剛嗣氏、 金子弘昌氏、船津公人氏の論文があります。
MWモデル(Moving-Window): モデルの作成に使うデータの期間(window)を決め、モデルの作成の度に、最新のデータの範囲を使って行く方法。
TDモデル(Time-Difference):説明変数の時間的な差分から、目的変数の時間的な差分を計算して、目的変数の予測値を求める方法。
MWモデルでは、モデルの更新毎に外れ値の処理等の労力がかかるため、 TDモデルを使った場合のYの予測値の精度を求め、良ければTDモデルを使い、良くなければMWモデルを使う運用を提案しています。




順路 次は 時間解析

Tweet データサイエンス教室