ひとつのステップと、その前のステップの関係を全体的に調べるのが、 自己相関分析 の第1歩です。
第1歩の中だけでも、「この方法で何がわかるのか?」等、考える事がありますが、 第2歩として、 ひとつのステップと、過去の複数のステップとの関係を全体的に調べる方法があります。
ひとつのステップと、過去の複数のステップの 線形和 の関係を調べるのが、ARモデル(Auto Regressive)です。
ARモデルは、あるステップと過去の複数のステップの、 重回帰分析です。
ARモデルは、もっと一般的な形に拡張すると、 状態空間モデル になります。
ARモデルは、少し考えただけでも、様々なバリエーションが考えられます。 例を、式の形にして、並べて見ます。 下記の式で、「1」としているところを、「2」にしてみたり、 複数の式のアイディアを、融合したり拡張したりもできます。
式の書き方ですが、例えば、
x(n) = f[u(n),v(n)]
と書いているときは、
「時刻 n の時の、u と v を使った式で、x を表現することができる。」、という意味です。
自己相関分析では、
x(n)を Y (縦軸)で、x(n-1)を X (横軸)として、散布図にして、
プロットが線形の単回帰分析(直線)で表現できるかどうかを調べます。
直線かどうかに関わらず、この散布図のデータが、何かの式で表せた場合の一般的な書き方をすると、
x(n) = f[x(n-1)]
になります。
ちなみに、
x(n) = x(n-1)
の場合は、x がまったく変化しないことを表します。
(1)の応用です。ARモデルで、2ステップ前の x を使った式で表せた場合の一般形です。
例えば、
x(n) = x(n-1) + 0.01 x(n-2)
の場合は、2ステップ前の x の値が、1%影響していることを表します。
この式は、 状態解析 のページでやっている事と同じです。
右辺のデータが、左辺と同じ時刻なので、 時系列に関係なく、説明変数と目的変数の関係が決まっている場合です。 時系列解析には見えないかもしれませんが、測定に時間がかかったりして、 目的変数の値がわかるまでに時間がかかる場合には、この式を予測に使う事もあります。
(4)や(5)の式を理解するための基本にもなります。
データの表があって、時刻に関係するようなデータの加工を、特に何もしないで 重回帰分析 をしている場合は、この式の解析をしていることと同じです。
u と v が原因、x が結果を表す変数になっていて、因果関係を表しています。
具体的なやり方としては、データの表で、x の列だけ1段ずらし、 ずらした表について、重回帰分析をします。 ずらす時の上下を間違えると、因果関係が逆転した解析になるので、注意が必要です。
この形は、変形すると、
x(n) - x(n-1) = f[y(n-1),z(n-1)]
になります。
「x の増分が、他の変数で表現できる。」、という意味の式になります。
時系列データに、(3)式を当てはめようとして、うまく行かなかった。。。 「因果関係があるから」と思って、(4)式を当てはめようとして、うまく行かなかった。。。 そんな時に、(5)式にするとうまく行くことがあります。
(5)式を作るには、2行ずつセットの x について、差を計算して、これを重回帰分析の目的変数として使います。
1ステップの単位が「1時間」だとすると、 「t 時間前の値が、繰り返す」、という意味の式になります。 つまり、周期性を表す式です。 この式で表現できる場合は、 スペクトル解析 もできます。
この式が成り立つ状態を、「強定常」と言います。 ちなみに、期待値(平均値)・分散・共分散に周期性がある時が、「弱定常」です。
右辺は、ひとつ前と、さらにひとつ前の値の平均値です。
これは移動平均(Moving Average)で、MAモデルとも呼ばれます。
ARMAモデルは、上記の(2)と(7)を合わせ、一般化したモデルです。
ARIMAモデルは、ARMAモデルに、(5)を合わせ、一般化したモデルです。
ARモデルで、非線形データも扱えるようにしたのが、 再帰型ニューラルネットワーク で、これは ディープラーニング の一種です。
順路 次は 移動分析