トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

グラフィカル分析

グラフは、データの様子を見るためにデータ分析の最初で使うこともありますし、 データ分析の結果を、わかりやすく人に伝えるために使うこともあります。

実務のデータ分析では、 ロバストな解析 を使うこともありますが、 難しい理論を使ってロバストにするよりも、グラフで分析した方が、はるかに楽で、早いことがよくあります。

このサイトでは、グラフを使ったデータ分析を、「グラフィカル分析」と呼ぶことにしています。 データサイエンス の中では、 データリテラシー のひとつにもなります。

環境と品質のためのデータサイエンス流のグラフィカル分析

筆者の場合、 グラフィカル分析の中でも、製造業の工場関係のものをすることが多いです。 その時には、全部の変数を可視化して目で見てみることと、 層別サンプリング をしたグラフを見ることが大事です。 とても泥臭い作業になるのですが、一方で、効率良く、素早くやってしまわないと、 製造現場から求められるスピードに合いません。

また、グラフを製造現場の方に見てもらう時には、ひとつのグラフに、ひとつのメッセージが明確に見えるようなものにしないと、 伝えたいことが伝わらないため、 グラフはシンプルにする必要があります。

グラフを描く目的はいろいろですが、このサイトの場合は、上記のような感じでグラフを描く時の話になっています。

分析のポイント

グラフは、四角の枠の中に作られます。

「グラフの縦軸と横軸は、何にするのか?」、 「縦軸と横軸の範囲は、どうするのか?」といったことが、分析者の腕の見せ所となります。 これらの内容で、同じデータでも、グラフの説得力が変わります。

グラフの見方としては、「範囲の外は気にしなくて良いのか?」、「選ばれていない変数は見なくて良いか?」というあたりが、 チェックポイントになります。

グラフの種類

昔の探索的データ分析

グラフィカル分析は、古くから「探索的データ分析(Exploratory Data Analysis : EDA)」と呼ばれているものの一部です。 探索的データ分析には、グループ毎に統計量を出すことや、いわゆるデータの前処理も含むことがあるようです。

「探索的データ分析」で国会図書館の蔵書検索を調べると、1980年代から90年代の文献が100件近く出て来ます。 この時期に流行したようです。

PCが今のPCのような形で使えるようになったのはWindows95が出てからなので、 2020年現在とは状況が違います。 温故知新のため、いずれ、昔の探索的データ分析の内容は調べてみたいと思っています。



どのような手法(モデル)を実務で使いますか?

参考文献

グラフ作成のノウハウ

Head Firstデータ解析 頭とからだで覚えるデータ解析の基本」 Michael Milton 著 オライリー・ジャパン 2010
データ解析を実際に進める時に必要な作業や考え方を、親しみやすい説明の仕方で丁寧に解説しています。 グラフィカル分析も丁寧です。折れ線グラフ、ヒストグラム、散布図が出て来ます。
折れ線グラフは、変化の仕方が逆になるもの(マイナスの相関関係があるもの)に注目する話があります。
ひとつの散布図から、ばらつきを見たり、回帰線による 外挿 でデータのない部分を考察する話があります。
格子状散布図として、散布図を縦横に3つずつにして、9枚を並べたものは2種類あります。 ひとつは、縦軸が収入なのは共通で、横の分割の違いが横軸の3つの変数になっていて、縦の分割の違いが3つのホームページの違いになっているものです。 もうひとつが縦軸がWebヒット数、横軸がコメント数なのは共通で、9つのグラフの違いが人の違いになっているものです。


直感でわかるデータ分析」 原隆志 著 技術評論社 2010
Excelのピボットテーブル を使った集計と、その集計結果をピボットグラフ(折れ線グラフと棒グラフ)を使って見るデータ分析について、 丁寧に説明されています。


データビジュアライゼーションの教科書」 藤俊久仁・渡部良一 著 秀和システム 2019
グラフの入れるべきことと、入れない方が良いことについて、様々なものが挙げられています。 二軸や立体的なグラフのように、グラフをわかりにくくする表現を省く話が多めですが、 回帰線で全体的な傾向がわかるようにしたり、
たくさんの折れ線が混ざっている場合は、分割したりなど、あえて手間を加える話もあります。


グラフ作成のソフト

プロ直伝 伝わるデータ・ビジュアル術」 五十嵐康伸 監修 技術評論社 2019
様々なグラフのソフトを紹介しています。無料のものあります。 どちらかと言えば、グラフィカル分析や技術情報のためのグラフではなく、不特定多数の人にも親しみやすいグラフの話になっています。
TableauPower BI Desktop:Excelのピボットグラフをとても使いやすくして、グラフの種類も増やしたようなソフト
Gapminder:折れ線グラフのアニメーションが作れる。
BingマップArcGIS OnlineOIGS:地図とグラフを組み合わせられるソフト
E2D3Infogram:「インフォグラフィック」といって、絵文字を使ったりして親しみやすくデザインされたグラフ。E2D3はExcelのアドインになっている。
CytospaceGephiネットワークのグラフが作れるソフト
RESASIHME:RESASが国内の行政データ、IHMEが世界の健康データを調べることができるサイト


順路 次は グラフィカル分析のソフト

Tweet データサイエンス教室