杉原データサイエンス事務所のロゴ トップページ | 統計学の解釈学 | このサイトについて

ARモデルの係数の決まり方

以下は、筆者の私見です。 誤解があれば、ご教示いただけると幸いです。


ARモデル時系列分析 の教科書で必ずと言って良いほど紹介されます。

このページでは、ARモデルについて、筆者が気が付いたことを説明します。 先行研究があるかもしれませんが、筆者は見かけたことがないです。

このページでは、「ARモデルの係数の決まり方には、一定の規則がある」について説明します。

規則は、ばらつきが大きい場合と、ばらつきがない場合が両極端になるようです。 それらの中間くらいの場合は、中間のような値になります。

下記では、周期性(季節性)がある場合は含んでいません。 周期性がある場合は、複雑になりますが、下記の延長で良いようです。
ARモデルの係数の決まり方

ばらつきが大きい場合

ばらつきが大きい場合というのは、全体的には増減の様子が見られるものの、隣接した値は、必ずしも近くない場合です。
ARモデルの係数の決まり方

上記の例で、AR(5)、つまり、5個前のサンプルまで遡るARモデルを作ると、係数は、
0.18、0.14、0.13、0.25、0.21
になります。 合計は0.91です。

データや項目数を変えてみた経験を踏まえると、一般論としては AR(q)の係数は、
1/q
くらいになるようです。 切片以外の係数の合計は、ほぼ1になります。 つまり、 移動平均モデル に近いものが求まります。

例えば、「q = 5」なら、0.2(= 1/5)が目安になります。 上記は、「q = 5」ですが、0.13から0.25の範囲でばらついています。そのくらいの範囲では、ばらつきます。

ばらつきがない場合(多項式の場合)

ばらつきがない場合というのは、隣接した値が、非常に近い値になっていて、グラフでは、曲線のようにプロットが並ぶ場合です。
ARモデルの係数の決まり方

上の例の場合は、5次の多項式で完全に近似できます。

ここで話が唐突ですが、4次の多項式までの場合は、ARモデルの係数が明確に求まります。
多項式とARモデルの関係

上の式は、上から順に、1から4次の多項式です。 上の式は、例えば、2行目の場合、任意の2次の多項式は、AR(2)の係数を求めると、
多項式とARモデルの関係
という式になることを表しています。

ポイントは、b0以外は、AR(2)の式の中に入っていないことです。 また、2次の多項式について、AR(3)の係数を求めると、上記とはまったく異なります。

上記も含めて、さらに複雑な場合もまとめると、下記の表のようになります。
多項式とARモデルの関係

アーベル=ルフィニの定理と、ガロア理論

上記は、筆者の経験則です。 いろいろ試す中で、同じ値を見かけることがあるので、気付きました。 筆者の知る限りでは、多項式とARモデルの係数を示した文献は見たことがないです。

4次まではきれいな数字が導き出されるのに、5次以上では導き出されないのは、 「アーベル=ルフィニの定理」に当てはまるからのようです。 また、この定理の理由を説明する理論は、「ガロア理論」というそうです。

ばらつきがない場合(一般的な曲線の場合)

上記では、ばらつきがない場合の特別な場合として、4次以下の多項式の場合を説明しました。 さらに経験則になるのですが、一般的な曲線の場合は、4次以下の多項式の場合を応用すると良いようです。
ARモデルの係数の決まり方

AR(1)の係数を求める場合

まず、AR(1)の場合は、切片以外の係数は、ほぼ1になります。 上記の例の場合は、1.000014です。

AR(2)以上も含めると、 切片以外の係数の合計が、ほぼ1になるのは、ばらつきが大きい場合と同じです。

AR(2)の係数を求める場合

1次式にほぼ一致する場合と、2次式にほぼ一致する場合は、それぞれ該当する多項式の係数になります。

それ以外の一般の曲線では、切片のところ以外の係数が、2次式の係数に近い値になります。

例えば、7次の多項式に一致するデータについて、AR(2)の係数を求めると、切片はデータによって大きく異なりますが、それ以外の部分については、
ARモデルの係数の決まり方
に近い値が求まります。

AR(3)とAR(4)の係数を求める場合

AR(3)とAR(4)の係数を求める場合の考え方は、AR(2)の時と同様です。

ばらつきがない場合(周期曲線の場合)

一般的な曲線の場合を先に説明していますが、一般的な曲線の中でも、周期曲線は特別なことがあります。

下の例は、周期が12の周期曲線です。 12個前が、まったく同じ値になっています。
ARモデルの係数の決まり方

周期よりも小さなARの場合

AR(1)からAR(3)までの係数を求めると、下のようになります。
ARモデルの係数の決まり方

上の表で、「2次式に、ほぼ一致」としていう行と、係数の決まり方が似ています。 そのため、この周期曲線は、多項式の中では、2次式と局所的に似ていることがわかりました。

周期と同じサイズのARの場合

周期が12なので、AR(12)の係数を求めると、下のようになります。
ARモデルの係数の決まり方

12個前の係数が1で、それ以外が0なので、「12個前が、まったく同じ値」という特徴が表れるように係数が決まっています。

周期よりも大きなARの場合

例えば、AR(15)の場合は、下のようになります。
ARモデルの係数の決まり方

4個前と13個前の係数0にならず、それ以外が0になります。 「12個前が、まったく同じ値」という特徴が表れないように係数が決まっています。

ARモデルの係数についての、間違った考察の仕方

このサイトには、 変数の重要度の分析 のページがありますが、一般的には、多変量解析をしてから、モデルの係数を見て、 「この変数の影響が大きい」といった考察をします。

ところが、ARモデルでは、このような考察ができません。

間違いがわかりやすい例ですが、 例えば、上記で周期が12の曲線に、AR(15)を適用すると、12とは関係のない、4や13の係数が出て来ます。 この結果だけを見ると、「4と13の周期があるのだ」と考えたくなりますが、 このように考察するのは、明らかに間違いです。

逆に例えば、4次式にほぼ一致する曲線に、AR(5)を適用すると、上の表から下記の結果になります。
ARモデルの係数の決まり方
この結果を見て、「2個前のサンプル以外は、関係するのだ」と考えても、あまり意味がありません。

ARモデルの係数についての、正しい考察の仕方

ARモデルの係数は、個別ではなく、セットで見るものです。

上の例では、周期曲線について、AR(2)やAR(3)の係数を見て、「2次式と局所的に似ている」という考察をしています。 このように、係数のセットを見て、4次式までのどれに近いのかを考察するのは正しいです。

周期性を調べたい場合は、ARモデルの係数ではなく、自己相関を「1つ前のサンプル」、「2つ前のサンプル」と遡って調べていく、コレログラム分析をすると、間違いがないです。



ARモデルと一般化したランダムウォークモデルは、だいたい同じ

平滑化したランダムウォークモデルになるARモデル




杉原データサイエンス事務所のロゴ
杉原データサイエンス事務所によるコンサルティングとセミナー