何かが発生した時の、日時のデータがあったとします。 現象が起きることを、統計学の分野では、「生起」といいます。
このページの以下の内容は、 発生自体は確率的なことなので、日時の具体的な値を他の変数や、何か他の事実など結び付けることに使わない場合や、 具体的な値が直接それらに結び付けられない場合の話になります。 特徴量エンジニアリング の 質的データを量的データに変換 の一種です。
こういうデータですが、発生した時と、発生していない時の両方の日時のデータがある場合と、 発生した時だけがある場合があります。 両方ある場合の方が、扱いやすいので、そちらから説明します。
ページの方法は、 重ならない窓 の一例です。
両方の日時がある場合、発生していたら「1」、発生していなかったら「0」として、2列のデータにまとめることができます。 これがデータ解析のスタートになります。 例は、2001年1月1日から始まっています。 下の方は、省略しましたが、2014年7月4日まであります。
例のデータは、時間が等間隔ではないですが、 センサーデータ だと、何かのフラグとして、このような01データが1秒間や1分間等の等間隔に記録されていることもあります。
このデータを、散布図にすると、下のようなグラフになります。
よく見ると、グラフの右側の方が、1が多いように見えますが、とてもわかりにくいグラフです。 わかりやすくするには、集計が良いです。
このページのデータは サンプルファイル にあります。
例のデータは、1〜2か月に1回程度のペースで、不定期に測定したデータが14年分あります。 1年ごとで集計すると、大まかな推移が見れそうなので、1年ごとで集計する場合を例にします。 受注の予測では、1日ごとや1時間ごとくらいが必要かもしれませんが、データのまとめ方は同様です。
集計方法は2種類あります。 データの背景や解析の目的によって、使い分ける必要があります。
この集計によって、データから得られる事実がわかりやすくなります。 また、1年ごとに集計するのでしたら、1年ごとの売上データ等と結び付けたデータ解析ができるようになります。
Excelなら、「ピボットテーブル」や「小計」の機能を使えば、 年ごとで0と1の合計値を計算する事が、まとめてできます。
合計値で集計すると、下のようなグラフになります。
ちなみに、ここで計算した合計値は、「頻度」になります。 同じ期間で頻度がひとつずつ計算されるので、この頻度は、発生確率のデータと同じ意味を持っています。
01データの0と1の両方を使っている方法です。 0の日のデータがない場合は、「データがない日は0」という風にして、データを作ると使えるようになる方法です。
年ごとの平均値を計算する方法もあります。 計算の仕方は、合計値と同じようにExcelの機能でもできます。
合計値の場合は、年ごとの発生件数の事なので、理解しやすいのですが、 平均値の場合は、少し解釈が難しくなります。
01データの平均値は、比率や確率になります。
平均値を計算すると確率が計算できてしまうのは、不思議な感じがするかもしれませんが、 0と1のデータでは、こういう事ができます。
ちなみに、例のデータは年ごとのサンプル数が異なるので、合計値と平均値のグラフの見た目が違うのですが、 報告数が同じなら、見た目は同じになります。
上記は、01データになっている変数が、1つの場合の話です。
01データは、 アソシエーション分析 や テキストマイニング では普通に登場するデータですが、これらの分野では、変数の数が膨大になる事がよくあります。 すべての変数に対して、このページのようなグラフを作って解析するのは、現実的ではないです。
01データの変数がたくさんあって、集計までできたら、そのデータの解析は、 多変量データの傾向解析 が便利です。
発生していない時に日時データがない場合ですが、 年ごとの合計値(頻度)を計算する方法は、そのまま使えます。
ただし、合計が0になる期間が、集計結果に含まれないので、注意が必要です。 0になる期間は、あとから追記した方が良いかもしれません。
平均値の方の方法を使うには、何らかの形で、日時がないデータを追加する必要があります。 「データがない日は0」、「営業日、かつ、データがない日は0」と言った感じになります。
発生した時の数字ですが、「1日に2回発生しているから2」や、 「13kg受注したから13」という理由で、1以外の数字が入っている場合があります。
このような場合ですが、数字の表す量には特に意味がなくて、発生することだけに意味があるのなら、 「何かの数字が入っていれば、全部1に変換」としてデータを加工します。
発生することだけでなく、数字の表す量も重要なら、 「数字をそのまま使って集計」します。 数字をそのまま使うと、合計値や平均値は、「頻度」や「確率」ではなくなって来ます。 データ分析の結果には、発生したかどうかの影響と、量の影響が入りますので、 結果を見る時には、2つの影響を区別して見るようにすると良いです。
順路 次は 準周期データの分析