ホワイトノイズモデル

初学者が統計的なモデルを学ぶ時に、誤差項eについて、意味がわからなかったり、どのような性質なのかがイメージできなかったりすることがよくあります。

ホワイトノイズモデルは、eしか変化しない式です。時系列近傍法の基礎になっているものです。

そのため、まずホワイトノイズモデルについて、性質や活用の仕方をまず勉強しておくと、つまずきを防止できます。

ホワイトノイズモデルによる予測

下のグラフは、2022年9月までのデータがあります。 2022年の10月は、いくつと予測したら良いでしょうか？
ホワイトノイズモデル

約30から110の範囲で、特に規則性はないように見えるので、「予測は不可能！」と考えるのもひとつの考え方です。しかし、それでは、10月以降に対して、何も準備ができないです。

このようなデータの場合、「約30から110の範囲。規則性はない。」という点について、「特徴がない」と考えるのではなく、「これが特徴」と考えます。

まず、平均値が約60のようなので、まず、60が一番起きやすいと考えます。そして、「30から110の範囲で発生する可能性がある」と考えます。

「予測値は60」として進めることはできますが、現実に60ぴったりになることは、まずないので、当たらない予測になってしまいます。一方で、10や150になることは、このデータからは、非常に考えにくいです。そうしたことを踏まえ、ピンポイントの値ではなく、範囲を予測します。

30から110の範囲でばらついている点は、「リスク」と考えると良いです。例えば、30の場合と、110の場合について、もしもその値になった場合の対応を考えておきます。

上のようなデータの場合は、中心は平均値、ばらつきは標準偏差として考えると、統計学の考え方がしやすくなります。ここでは、平均値は約62、標準偏差は約18です。

平均値に標準偏差の2倍を足した値と引いた値は、約98と約26です。品質管理では、「2σ（シグマ）と呼ばれる範囲です。約95%の確率で、この範囲に入ります。約95%なので、「だいたいこのくらい」という目安としては、この範囲です。

平均値に標準偏差の3倍を足した値と、引いた値は、約116と約8です。約99.7%の確率で、この範囲に入ります。「この範囲の外は、まずありえない」という目安になります。　

上記では、言葉で予測の考え方を説明していますが、数式で書くと以下のようになります。
ホワイトノイズモデル

この式は、「n+1番目のxは、中心値uに、n+1番目の乱数eを足したもの」という意味です。

ホワイトノイズモデルを仮定して予測する場合は、乱数の部分は予測不能なので、予測値はuにします。 uは、過去のデータの平均値を使います。

ホワイトノイズモデル以外の時系列近傍法では、直近のデータを参考にして、予測をします。ホワイトノイズモデルは、直近を特に重視していません。

uが、過去のデータの平均値です。過去のデータの標準偏差と、eの標準偏差が一致します。

何らかの分布に従うデータが、ランダムに発生すると、上のようなデータになります。例えば、品質検査のデータのように、目標値が決まっていて、そこからデータがばらつく場合があります。

品質管理で使われている管理図は、ホワイトノイズモデルを応用しています。