時系列解析 のスタートは、時系列データを見てみることですが、 そこで使うのが折れ線グラフです。 折れ線グラフは、時系列解析の基本になるものです。
小学生でも知っているような手法ですが、 変化の傾向がわかったり、異常の程度がわかったり、いろいろなことがわかります。 これだけで解析が済むこともあります。 また、適当な統計モデルがないデータにも有効な手法です。
筆者の場合、「数百・数千の折れ線グラフを作って、全部見る。」という方法を、たまに使います。 泥臭い方法ですし、目をかなり使うので、それなりに大変なのですが、データを深く広く調べることができるので、かなり有効です。
折れ線グラフの見方にはコツがあります。 例えば、 「異常値」、「全体の増減」、「局所的に大きな変化」、「周期性」、「偏り」、「乱れ」、「あるべき値とのズレ」、 等の有無や大きさをチェックします。
異なる目的変数について、2つ以上の折れ線グラフを並べる場合は、同じタイミングで起きている変化をチェックします。 ただし、変数同士に原因と結果の関係(因果関係)がある場合は、結果の変数の変化は、少し遅れて起きていることもあります。
多変量解析 や データマイニング と言われている手法は、一般的には静的な(時間的な要素は関係ない)現象を前提としています。
一方で、たいていのデータは、データを取ったタイミングが違いますので、静的な現象ではない可能性があります。
静的な現象を前提としている手法を使って解析する時は、「静的」とみなして解析するのですが、 筆者も含め、 「静的とみなしている」、というのは忘れられがちです。
多変量解析 や データマイニング といったもので、データ解析しても、思うような結果が出ない時や、解析が失敗する理由として、 この前提の話が当てはまる事がよくあります。
静的な方法を使うにしても、折れ線グラフ等で、データの時間的な変化を確認しておくことは重要です。
折れ線グラフの横軸の決め方で、グラフの見え方が違います。 目的によって、使い分けると良いです。
下の折れ線グラフの場合、8/5以降が全体的に上がっていることがわかります。
Excelで折れ線グラフの作成機能で作る場合は、「軸の種類」を「テキスト軸」にすると、このようなグラフができます。
下の折れ線グラフの場合、8/5がポイントになっていることは、わかりにくいです。
その代わり、データの期間が3つあることがわかります。
Excelで折れ線グラフの作成機能で作る場合は、「軸の種類」を「日付軸」にすると、このようなグラフができます。 または、散布図の作成機能で作っても、これと同じグラフを作ることができます。
初めて扱うデータの場合、とりあえず折れ線グラフにして、見てみたいことがあります。 列が大量な時に便利なのが、 Excelのスパークライン です。
Excelのスパークライン は、「とりあえず」が重要な時は良いのですが、人に説明するためのグラフにはしにくいです。 こういう用途にも使えるのは、 ggplot2 、 Plotly 、PandasのPlot(matplotlib) という グラフ統計のソフト になって来ます。
順路 次は ヒートマップ