トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

箱ひげ図

箱ひげ図(ボックスプロット、Boxplot)は、 1次元分布のグラフ の仲間です。 1次元散布図 と似た分析ができますが、こちらはデータの密集度を箱の大きさで表現します。

箱ひげ図は、基本になる箱の大きさや、長さが決まっています。 四分位点 を使いますので、データの大きさの順番に注目した見方をしています。 なお、ソフトによっては、「1.5」という数字を変えられるようになっていることもあります。
箱ひげ図 箱ひげ図の見方

強み

箱ひげ図では密集の度合いが、簡単にわかります。 密集している所を見つけたい場合には便利です。

左の箱ひげ図と、真ん中の ジター散布図 、右の ヒストグラム は、同じデータのグラフです。
箱ひげ図 一次元散布図(ジター) ヒストグラム

ヒストグラムは、 層別 して、たくさんのグラフを並べると、とてもわかりにくいグラフになります。 箱ひげ図は、この弱点をカバーする使い方ができます。

外れ値を表示する機能も持っているので、 外れ値の判定 にも便利です。

n数に関係なく、箱の大きさが同じになるので、n数の異なるグループを、純粋に分布の違いとして比べたい時に便利です。

弱点

強みの裏返しになるのですが、n数に関係なく、箱の大きさが同じになるので、注目しなくて良いことが大きく見えることがあります。

また、密集度をひとつの箱で表現するので、山がいくつもあるような分布を表現できません。

Rで、箱ひげ図

Rの実施例です。 下記は、コピーペーストで、そのまま使えます。

サンプルデータ を「Data.csv」という名前にして、Cドライブの「Rtest」というフォルダに置くと、上のようなグラフができます

setwd("C:/Rtest") # 作業用ディレクトリを変更
Data <- read.table("Data.csv", header=T, sep=",") # データを読み込み
boxplot(X2 ~ X1, data=Data, xlab="X1", ylab="X2", outline=T) # グラフを作成。最後のTをFにすると、外れ値を描かない


変化を見るグラフとして

箱ひげ図は、期間毎や、ロット毎、といった単位でデータを集計しておくと、 変化のグラフ として使うことができます。 こういう見方は、 折れ線グラフ ではできないので、便利です。
箱ひげ図

RやPythonで描く

ggplot2Plotlyseaborn という グラフィカル分析のソフト があります。

Excelの箱ひげ図

昔、Excelで箱ひげ図を作りたい時は、株価チャートの中のグラフを転用して、自分で箱の各位置の値を設定する必要がありました。 今は、他のソフトと同じように、これらの値を自動計算してグラフを作る機能が、 Excelの箱ひげ図 としてできるようになっています。



順路 次は 変化のグラフ

Tweet データサイエンス教室