トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

Excelのグラフ

「Excelで グラフィカル分析 」と書くと、大したことができないような印象を持つ方がいるかもしれませんが、筆者はそう思っていません。 Excelは、データとグラフがくっついていて、 データを直接見たり触ったりしながら分析できるのが、すごくいいです。 また、グラフの機能もスパークラインのように、大量データ向きのものがあり、Excelならではの分析ができます。

オフィスの大抵のパソコンにはExcelが入っていますので、 他人のパソコンにデータがあったりして、そのパソコンでとりあえずデータを見たい時には、Excelの技をたくさん知っていると良いこともあります。 また、そういう状況の時は、そのパソコンの持ち主は、Excelでデータを扱うことはあっても、 他のソフトでデータを分析することはなかったりもするので、 Excelの技を紹介すると喜んでもらえることもあります。

このページの内容は、Excelのグラフとしてあまり知られていないものの、 データサイエンス のツールとして、とても便利なものをまとめています。

知りたいグラフへの近道

たくさんの変数を見るためのグラフ
たくさんの量的変数のサンプル順の折れ線グラフ(スパークライン)
たくさんの量的変数の1次元分布の比較(箱ひげ図)
たくさんの量的変数を色で見る(ヒートマップ)

探索用のグラフ

豆知識
ヒストグラム
棒グラフ

たくさんの変数を見るためのグラフ

最近のExcelには、たくさんの変数を見るためのグラフが充実して来ています。

たくさんの量的変数のサンプル順の折れ線グラフ(スパークライン)

初めて扱うデータの場合、とりあえず 折れ線グラフ にして、見てみたいことがあります。 列が大量な時に便利なのが、Excelのスパークラインです。

まず、こんなデータがあったとします。
スパークラインを描く

1行目に新しい行を作ります。 行の高さも少し大きくしておきます。
スパークラインを描く

挿入のメニューから、スパークラインの折れ線を選びます。
スパークラインを描く

データの範囲と、グラフを作るセルを指定します。 A列のデータをグラフにするのでしたら、グラフを作るセルはA1にすると良いです。
スパークラインを描く

グラフが1個できました。
スパークラインを描く

あとは、A1セルをコピーして、B1、C1にペーストしていくだけです。 効率の良いコピーペーストのやり方は、割愛します。
スパークラインを描く

たくさんの量的変数の1次元分布の比較(箱ひげ図)

箱ひげ図 だけですが、たくさんの量的変数をいっぺんに見る方法として使うことができます。

まず、こんなデータがあったとします。
箱ひげ図

データの範囲を選びます。
箱ひげ図

挿入のメニューから、箱ひげ図を選びます。
箱ひげ図

ひとつの変数がひとつの箱になっている箱ひげ図ができました。 Y軸の範囲の調整等は、他のグラフと同じです。 書式設定を使うと、中央値の出し方を変えることもできます。
箱ひげ図

たくさんの量的変数を色で見る(ヒートマップ)

Excelには、「 ヒートマップ 」という名前のグラフはないです。 しかし、 データを表の形で表示しているので、条件付き書式の機能の中に「カラースケール」があり、 これを使うと、選んだ範囲のセルの中の数字データに応じて、段階的にセルを色分けしてくれるのでヒートマップを作ることができます。

ヒートマップは、スパークラインとは違った見方で、Excelで大量のデータを見ることができます。

下の2つの表には、同じ数字が書かれているのですが、ヒートマップにした方は、値が極端に高いところが緑色、 低いところが赤色、中間が黄色になっています。
ヒートマップ ヒートマップ

探索用のグラフ(ピボットテーブル)

ピボットテーブルは、筆者は2003年に会社の同僚から教えてもらいました。 その頃には既にあったものですが、Excelを普段使う人でも、知らない人が多いです。

データの範囲を選択して、挿入からピボットテーブルを選ぶと、GUIで自由自在に集計のできる画面が出て来ます。

ピボットテーブルのシート上で、グラフを作成すると、ピボットグラフになります。 ピボットテーブルの内容がそのままグラフになります。

欲しい集計値がなかったり、散布図が使えなかったりする不便さは未だにありますが、 いわゆるインタラクティブ(対話型)な グラフィカル分析 ができます。
ピボットテーブル

豆知識

ヒストグラムの実用的な使い方

ヒストグラム は、区間の区切り方にコツがあります。

品質管理の教科書を見ると、最大値と最小値を、適当な数で均等に分割する方法が説明されていることがあります。 右図の例は、最大値が18.174、最小値が2.426です。
ヒストグラム1

この方法の欠点は、まず、横軸の数字がとても細かいことです。 「7.984と8.910の間に、6個データがある」、というのは、ピンと来にくいです。 また、合否判定の値がある場合、不合格品がいくつあるのかが、数えられないです。

もうひとつの図は、筆者がよく使う形です。
ヒストグラム2

まず、区間は、区切りの良い数字になるようにします。 「データは、0から20まであるから、20等分がちょうど良い。」、といった風にして決めます。

また、区間の境に判定の線が来るようにもしています。 今回は、「9以上は不合格(NG)」と仮定していますので、これでちょうど良いです。 例えば、判定値が8.5の場合は、区間をさらに半分にする等の工夫がいります。

こういうヒストグラムは、Excelだと作れますが、他のソフトだとできなかったりします。 ただし、「Excelで作れる」と言っても、frequency関数と 棒グラフ を使った作り方で、Excelのグラフメニューのヒストグラムではない場合です。 筆者の知っている範囲では、Statworksが一番簡単に作れます。

層別の棒グラフ

棒グラフのデータピボットテーブル
上のようなデータがあったとします。 このデータ全体を選んで、棒グラフを作ると、X軸のラベルは2つの質的変数が2段になっている棒グラフができます。

X軸のラベルについて、層別(分割)を進めていることがわかるようにラベルを入れたい場合は、 データに空白を作るようにします。
棒グラフのデータピボットテーブル



順路 次は ggplot2

Tweet データサイエンス教室