トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

ランダムウォークモデル

複雑な動きをしている折れ線が10種類あります。 ヒストグラム を見ると、平均値の位置も、ばらつきの仕方もかなり違います。
01data 01data

それぞれの変数について、ひとつ後の値との差を計算して、 速度データ を作ります。

すると、複雑に見えていたデータですが、速度データにすると、同じ現象らしいことがわかります。
01data 01data

速度データは ノイズ に見えますので、速度データのモデルは
速度(=X(t+1) - X(t)) = 平均が0で標準偏差が1くらいになっている正規分布の乱数
になっているらしいことがわかります。

よって、元のデータは、
X(t+1) = X(t) + 平均が0で標準偏差が1くらいになっている正規分布の乱数
であることがわかります。 実際、このモデル式で、このデータを作っていますので、この推測の仕方は正解です。

このモデルでは、次の位置が、元の位置を基準にしたランダムな位置になります。 「ランダムウォーク」、「酔歩」、「千鳥足」と呼ばれます。 なお、ここでは、次の値がプラス側にもマイナス側にもランダムに決まり、移動量がランダムな正規分布になっているモデルで、 ウィーナー過程と呼ばれています。 ランダムウォークモデルと呼ばれているものには、移動量は一定で、向きだけがランダムなものもあります。

ランダムウォークモデルは、 時系列ばらつきモデル の中では、とてもシンプルなものです。 ランダムウォークモデルで作られるデータは 正規分布 ではありませんが、 正規分布から作られる分布 の一種になります。

ランダムウォークモデルの使い道

ランダムウォークモデルになっていれば、 自己単相関 も高くなって来ます。

自己単相関が高いと、 現在のデータを次のデータの予測値にする方法が使えるようになります。 さらにランダムウォークモデルと言っても良い状態なら、 次のデータの予測値は、中心値が現在のデータになることだけでなく、そこからどのくらいばらつくのかもわかります。

ばらつきが予測できるので、次の値が実際に取れた時に 外れ値かどうかの判定 ができます。

元のデータを見ると、「どうしようか・・・」となるような現象でも、 速度データ が正規分布になっているという単純な法則が当てはまる場合は、 速度データ が正規分布になっていることを使って、シンプルで効果的な対策が立てられます。

ガウス過程回帰分析の使い道

冒頭のような複雑な折れ線のデータに対して、ガウス過程回帰分析を適用する話があります。 ガウス過程回帰分析というのは、確率過程としてのガウス過程のモデルというよりも、 ガウシアンカーネルという カーネル法 を使ったモデルのことを指すようです。 複雑な構造のデータに対して、当てはまりの良い分布を定式化します。

ガウス過程回帰分析の使い道ですが、予測が目的で、 自己単相関 が高かったり、ランダムウォークモデルが当てはまる状況なら、あえてこのような高度な方法を使わなくても、良いと思います。 (今のところ、ガウス過程回帰分析が活きる現象が思い当たりません。)




このページのグラフは、 seaborn で作りました。

順路 次は 異常値の予測

Tweet データサイエンス教室