トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

折れ線グラフ

時系列解析 のスタートは、時系列データを見てみることですが、 そこで使うのが折れ線グラフです。 折れ線グラフは、時系列解析の基本になるものです。

小学生でも知っているような手法ですが、 変化の傾向がわかったり、異常の程度がわかったり、いろいろなことがわかります。 これだけで解析が済むこともあります。 また、適当な統計モデルがないデータにも有効な手法です。

筆者の場合、「数百・数千の折れ線グラフを作って、全部見る。」という方法を、たまに使います。 泥臭い方法ですし、目をかなり使うので、それなりに大変なのですが、データを深く広く調べることができるので、かなり有効です。

折れ線グラフの見方

折れ線グラフの見方にはコツがあります。 例えば、 「異常値」、「全体の増減」、「局所的に大きな変化」、「周期性」、「偏り」、「乱れ」、「あるべき値とのズレ」、 等の有無や大きさをチェックします。

異なる目的変数について、2つ以上の折れ線グラフを並べる場合は、同じタイミングで起きている変化をチェックします。 ただし、変数同士に原因と結果の関係(因果関係)がある場合は、結果の変数の変化は、少し遅れて起きていることもあります。

折れ線グラフによる、データの事前確認

多変量解析データマイニング と言われている手法は、一般的には静的な(時間的な要素は関係ない)現象を前提としています。

一方で、たいていのデータは、データを取ったタイミングが違いますので、静的な現象ではない可能性があります。

静的な現象を前提としている手法を使って解析する時は、「静的」とみなして解析するのですが、 筆者も含め、 「静的とみなしている」、というのは忘れられがちです。

多変量解析データマイニング といったもので、データ解析しても、思うような結果が出ない時や、解析が失敗する理由として、 この前提の話が当てはまる事がよくあります。

静的な方法を使うにしても、折れ線グラフ等で、データの時間的な変化を確認しておくことは重要です。

折れ線グラフの使い分け

折れ線グラフの横軸の決め方で、グラフの見え方が違います。 目的によって、使い分けると良いです。

X軸の間隔が均等の場合

下の折れ線グラフの場合、8/5以降が全体的に上がっていることがわかります。
均等折れ線グラフ

Excelで折れ線グラフの作成機能で作る場合は、「軸の種類」を「テキスト軸」にすると、このようなグラフができます。

X軸が時間軸なことを正確に表す場合

下の折れ線グラフの場合、8/5がポイントになっていることは、わかりにくいです。 その代わり、データの期間が3つあることがわかります。
散布図折れ線グラフ

Excelで折れ線グラフの作成機能で作る場合は、「軸の種類」を「日付軸」にすると、このようなグラフができます。 または、散布図の作成機能で作っても、これと同じグラフを作ることができます。

Excelのスパークライン

初めて扱うデータの場合、とりあえず折れ線グラフにして、見てみたいことがあります。 列が大量な時に便利なのが、 Excelのスパークライン です。

RやPythonで描く

Excelのスパークライン は、「とりあえず」が重要な時は良いのですが、人に説明するためのグラフにはしにくいです。 こういう用途にも使えるのは、 ggplot2PlotlyPandasのPlot(matplotlib) という グラフ統計のソフト になって来ます。



順路 次は ヒートマップ

Tweet データサイエンス教室