トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

発生データ(01データ)の時系列解析

何かが発生した時の、日時のデータがあったとします。 現象が起きることを、統計学の分野では、「生起」といいます。

このページの以下の内容は、 発生自体は確率的なことなので、日時の具体的な値を他の変数や、何か他の事実など結び付けることに使わない場合や、 具体的な値が直接それらに結び付けられない場合の話になります。 特徴量エンジニアリング質的データを量的データに変換 の一種です。

こういうデータですが、発生した時と、発生していない時の両方の日時のデータがある場合と、 発生した時だけがある場合があります。 両方ある場合の方が、扱いやすいので、そちらから説明します。

ページの方法は、 重ならない窓 の一例です。

発生した時と、発生していない時の両方の日時のデータがある場合(01データにできる場合)

両方の日時がある場合、発生していたら「1」、発生していなかったら「0」として、2列のデータにまとめることができます。 これがデータ解析のスタートになります。 例は、2001年1月1日から始まっています。 下の方は、省略しましたが、2014年7月4日まであります。

例のデータは、時間が等間隔ではないですが、 センサーデータ だと、何かのフラグとして、このような01データが1秒間や1分間等の等間隔に記録されていることもあります。

このデータを、散布図にすると、下のようなグラフになります。

よく見ると、グラフの右側の方が、1が多いように見えますが、とてもわかりにくいグラフです。 わかりやすくするには、集計が良いです。

01data 01data

このページのデータは サンプルファイル にあります。

例のデータは、1〜2か月に1回程度のペースで、不定期に測定したデータが14年分あります。 1年ごとで集計すると、大まかな推移が見れそうなので、1年ごとで集計する場合を例にします。 受注の予測では、1日ごとや1時間ごとくらいが必要かもしれませんが、データのまとめ方は同様です。

集計方法は2種類あります。 データの背景や解析の目的によって、使い分ける必要があります。

この集計によって、データから得られる事実がわかりやすくなります。 また、1年ごとに集計するのでしたら、1年ごとの売上データ等と結び付けたデータ解析ができるようになります。

年ごとの合計値(頻度)による推移

Excelなら、「ピボットテーブル」や「小計」の機能を使えば、 年ごとで0と1の合計値を計算する事が、まとめてできます。

合計値で集計すると、下のようなグラフになります。

ちなみに、ここで計算した合計値は、「頻度」になります。 同じ期間で頻度がひとつずつ計算されるので、この頻度は、発生確率のデータと同じ意味を持っています。

01data

年ごとの平均値による推移

01データの0と1の両方を使っている方法です。 0の日のデータがない場合は、「データがない日は0」という風にして、データを作ると使えるようになる方法です。

年ごとの平均値を計算する方法もあります。 計算の仕方は、合計値と同じようにExcelの機能でもできます。

合計値の場合は、年ごとの発生件数の事なので、理解しやすいのですが、 平均値の場合は、少し解釈が難しくなります。

01データの平均値は、比率や確率になります。

平均値を計算すると確率が計算できてしまうのは、不思議な感じがするかもしれませんが、 0と1のデータでは、こういう事ができます。

ちなみに、例のデータは年ごとのサンプル数が異なるので、合計値と平均値のグラフの見た目が違うのですが、 報告数が同じなら、見た目は同じになります。

01data

変数が多い場合のグラフ化

上記は、01データになっている変数が、1つの場合の話です。

01データは、 アソシエーション分析テキストマイニング では普通に登場するデータですが、これらの分野では、変数の数が膨大になる事がよくあります。 すべての変数に対して、このページのようなグラフを作って解析するのは、現実的ではないです。

01データの変数がたくさんあって、集計までできたら、そのデータの解析は、 多変量データの傾向解析 が便利です。

発生した時だけの日時のデータがある場合

発生していない時に日時データがない場合ですが、 年ごとの合計値(頻度)を計算する方法は、そのまま使えます。

ただし、合計が0になる期間が、集計結果に含まれないので、注意が必要です。 0になる期間は、あとから追記した方が良いかもしれません。

平均値の方の方法を使うには、何らかの形で、日時がないデータを追加する必要があります。 「データがない日は0」、「営業日、かつ、データがない日は0」と言った感じになります。

発生した時の数字が、1以外の数字の場合

発生した時の数字ですが、「1日に2回発生しているから2」や、 「13kg受注したから13」という理由で、1以外の数字が入っている場合があります。

このような場合ですが、数字の表す量には特に意味がなくて、発生することだけに意味があるのなら、 「何かの数字が入っていれば、全部1に変換」としてデータを加工します。

発生することだけでなく、数字の表す量も重要なら、 「数字をそのまま使って集計」します。 数字をそのまま使うと、合計値や平均値は、「頻度」や「確率」ではなくなって来ます。 データ分析の結果には、発生したかどうかの影響と、量の影響が入りますので、 結果を見る時には、2つの影響を区別して見るようにすると良いです。



順路 次は センサーデータの解析

Tweet データサイエンス教室