トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

時間的な外挿

例えば、0、10、20、30℃の間の気温のデータと、その時の電気使用量のデータを持っているとします。 そして、「明日は27℃くらいらしい。明日の電気使用量を予測しよう。」という解析をしたとします。

予測につきものの、 オーバーフィッティング外挿 を確認しても問題はなく、 予測区間 を確認して、予測の精度も高かったとします。

ここまで確認していれば、データからわかることは、きちんと確認しています。

しかし、筆者の経験から言えば、 ここまで確認して予測しても、また、実際の気温が27℃ちょうどになったとしても、 予測が大きく外れることは、けっこうありそうな事です。

この原因でよくあるのが、「時間的な外挿」です。

時間的な外挿

上記のような場合で、「時間的な外挿」というのは、 「温度以外の何かが電気使用量に影響していて、予測モデルを作った時にはそれが一定だったが、今は変わっている。」というものです。

「温度以外の何かが変わっている」という点が、「外挿」になるのですが、「何か」がわかっていないので、 一般的な意味での外挿 とは違います。

「何か」はわからないのですが、確実にわかっているのは時間の情報です。 予測に使用したのは「過去のある範囲」で、予測は「その時間の範囲の外」であることはわかっています。

このサイトでは、これを「時間的な外挿」と呼んでいます。

時間的な外挿の落とし穴はいつもある

予測では、例外なく過去のデータを使いますので、時間的な外挿の問題は、いつ起きてもおかしくない問題です。

また、持っているデータを使って、法則を表す式を作るような場合でも、起きる問題です。 いつでも成り立つと言えないものは、法則とは言えません。

いつ起きてもおかしくないのですが、持っているデータからはわからないことなので、 表立って議論されることがあまりありません。

ただ、予測が外れてからデータを見直した時に、予測が外れる予兆のようなものがあった事に気付くことが、たまにあります。

時間的な外挿の解析

品質管理では、未知の「何か」が変わってしまったために、予想外の品質になってしまう問題が常にあります。

標準化 しているから大丈夫」と思っていても、その標準を作った時と、「何か」が変わっていれば起こります。

こういう問題が起きた時には、まず、問題が起きたタイミングを明確にします。 そして、「そのタイミングで何かをしていないか?」、「そのタイミングの前後で変わったことがないか?」、調査します。 この調査のためにデータ解析をすることもありますが、聞き取り調査等も大事です。

未知の理由を調べるので、 タイミングを手掛かりに調べるのがポイントです。 その調査で見つかったことがあれば、それと問題になった事に関連がないのかを、考察していきます。

時間的な外挿への対処

いつでも言えることではないのですが、時間的な外挿は、モデルを作るのに使うデータの期間と、予測の時刻が離れているほど、外れ方が大きいです。

制御SPC(統計的工程管理) などの予測に使う場合は、新しいデータほど重視するモデルにして、逐次、モデルを作り直す事もあります。 簡単なのは、「過去3ヶ月のデータだけでモデルを作る」と言った風に、モデル作成のルールを決めると、この方法が使えます。 MWモデルやJITモデル と呼ばれる 時系列解析 の方法では、実際にこうしたアイディアを入れるようになっています。

「法則」と言えるほど、普遍なモデルを作るのは、すごく大変です。 科学の分野では、何度実験しても同じ結果になるのか(再現性が高いか)を判断の基準にしています。 そのためには、測定方法やサンプリングに、細心の注意を払います。

マイナスをプラスに使う

落とし穴を知っていると、 それを認識した上でできるデータ解析があります。

「普遍的ではないけれども、一時的には成り立つモデル(法則)を見つける。」と言うデータ解析です。 これは、 データマイニング の一種です。 短期的な戦略に使ったり、問題解決のヒントとして使える方法です。

また、長期間のデータではモデルが作れなくても、短期間のモデルが作れると、長期間のモデルが作れない理由がわかることもあります。


順路 次は 予測のためのソフトの使い方

Tweet データサイエンス教室