トップページ |
統計学の解釈学 |
このサイトについて
以下は、筆者の私見です。 誤解があれば、ご教示いただけると幸いです。
ARモデル は 時系列分析 の教科書で必ずと言って良いほど紹介されます。
このページでは、ARモデルについて、筆者が気が付いたことを説明します。 先行研究があるかもしれませんが、筆者は見かけたことがないです。
このページでは、「ARモデルの係数の決まり方には、一定の規則がある」について説明します。
規則は、ばらつきが大きい場合と、ばらつきがない場合が両極端になるようです。 それらの中間くらいの場合は、中間のような値になります。
下記では、周期性(季節性)がある場合は含んでいません。
周期性がある場合は、複雑になりますが、下記の延長で良いようです。
ばらつきが大きい場合というのは、全体的には増減の様子が見られるものの、隣接した値は、必ずしも近くない場合です。
上記の例で、AR(5)、つまり、5個前のサンプルまで遡るARモデルを作ると、係数は、
0.18、0.14、0.13、0.25、0.21
になります。
合計は0.91です。
データや項目数を変えてみた経験を踏まえると、一般論としては AR(q)の係数は、
1/q
くらいになるようです。
切片以外の係数の合計は、ほぼ1になります。
つまり、
移動平均モデル
に近いものが求まります。
例えば、「q = 5」なら、0.2(= 1/5)が目安になります。 上記は、「q = 5」ですが、0.13から0.25の範囲でばらついています。そのくらいの範囲では、ばらつきます。
ばらつきがない場合というのは、隣接した値が、非常に近い値になっていて、グラフでは、曲線のようにプロットが並ぶ場合です。
上の例の場合は、5次の多項式で完全に近似できます。
ここで話が唐突ですが、4次の多項式までの場合は、ARモデルの係数が明確に求まります。
上の式は、上から順に、1から4次の多項式です。
上の式は、例えば、2行目の場合、任意の2次の多項式は、AR(2)の係数を求めると、
という式になることを表しています。
ポイントは、b0以外は、AR(2)の式の中に入っていないことです。 また、2次の多項式について、AR(3)の係数を求めると、上記とはまったく異なります。
上記も含めて、さらに複雑な場合もまとめると、下記の表のようになります。
上記は、筆者の経験則です。 いろいろ試す中で、同じ値を見かけることがあるので、気付きました。 筆者の知る限りでは、多項式とARモデルの係数を示した文献は見たことがないです。
4次まではきれいな数字が導き出されるのに、5次以上では導き出されないのは、 「アーベル=ルフィニの定理」に当てはまるからのようです。 また、この定理の理由を説明する理論は、「ガロア理論」というそうです。
上記では、ばらつきがない場合の特別な場合として、4次以下の多項式の場合を説明しました。
さらに経験則になるのですが、一般的な曲線の場合は、4次以下の多項式の場合を応用すると良いようです。
まず、AR(1)の場合は、切片以外の係数は、ほぼ1になります。 上記の例の場合は、1.000014です。
AR(2)以上も含めると、 切片以外の係数の合計が、ほぼ1になるのは、ばらつきが大きい場合と同じです。
1次式にほぼ一致する場合と、2次式にほぼ一致する場合は、それぞれ該当する多項式の係数になります。
それ以外の一般の曲線では、切片のところ以外の係数が、2次式の係数に近い値になります。
例えば、7次の多項式に一致するデータについて、AR(2)の係数を求めると、切片はデータによって大きく異なりますが、それ以外の部分については、

に近い値が求まります。
AR(3)とAR(4)の係数を求める場合の考え方は、AR(2)の時と同様です。
一般的な曲線の場合を先に説明していますが、一般的な曲線の中でも、周期曲線は特別なことがあります。
下の例は、周期が12の周期曲線です。
12個前が、まったく同じ値になっています。
AR(1)からAR(3)までの係数を求めると、下のようになります。
上の表で、「2次式に、ほぼ一致」としていう行と、係数の決まり方が似ています。 そのため、この周期曲線は、多項式の中では、2次式と局所的に似ていることがわかりました。
周期が12なので、AR(12)の係数を求めると、下のようになります。
12個前の係数が1で、それ以外が0なので、「12個前が、まったく同じ値」という特徴が表れるように係数が決まっています。
例えば、AR(15)の場合は、下のようになります。
4個前と13個前の係数0にならず、それ以外が0になります。 「12個前が、まったく同じ値」という特徴が表れないように係数が決まっています。
このサイトには、 変数の重要度の分析 のページがありますが、一般的には、多変量解析をしてから、モデルの係数を見て、 「この変数の影響が大きい」といった考察をします。
ところが、ARモデルでは、このような考察ができません。
間違いがわかりやすい例ですが、 例えば、上記で周期が12の曲線に、AR(15)を適用すると、12とは関係のない、4や13の係数が出て来ます。 この結果だけを見ると、「4と13の周期があるのだ」と考えたくなりますが、 このように考察するのは、明らかに間違いです。
逆に例えば、4次式にほぼ一致する曲線に、AR(5)を適用すると、上の表から下記の結果になります。
この結果を見て、「2個前のサンプル以外は、関係するのだ」と考えても、あまり意味がありません。
ARモデルの係数は、個別ではなく、セットで見るものです。
上の例では、周期曲線について、AR(2)やAR(3)の係数を見て、「2次式と局所的に似ている」という考察をしています。 このように、係数のセットを見て、4次式までのどれに近いのかを考察するのは正しいです。
周期性を調べたい場合は、ARモデルの係数ではなく、自己相関を「1つ前のサンプル」、「2つ前のサンプル」と遡って調べていく、コレログラム分析をすると、間違いがないです。
ARモデルと一般化したランダムウォークモデルは、だいたい同じ
