トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

1次元散布図

一般的に「散布図」と言えば、 2次元散布図 のことですが、1次元の散布図もあります。

1次元散布図は、 1次元分布のグラフ の仲間です。 データの分布を個別にチェックするためのグラフです。

強み

強みは、すべてのデータをプロットしますので、個々のデータの具体的な位置や値をチェックするのに向いていることです。
一次元散布図

外れ値が目立ちやすいので、 外れ値の判定 でも重宝します。

弱点

データがある程度以上に、密集してしまう領域については、 「密集している」ということがわかるだけで、密集の度合いがわからないことです。 そのため、データが多い時には、うまく使えないことがあります。

この弱点が問題になる時ですが、一般的には、 ヒストグラム箱ひげ図 が良いです。 ソフトによっては、ジターやスワームプロットでも良いこともあります。

ジター(散らばり散布図)

データ解析のソフトには、データを適度に左右に散らばらせて、密集しにくくする機能がある場合があります。 「ジター(jitter)」という名前になっていたり、特に名前が付いていないソフトもあるようです。

下の2つのグラフはデータが同じなのですが、ジターの有無の違いがあります。 ジターにすると、プロットが重なっていたところが、だいぶバラバラになっています。
一次元散布図  一次元散布図(ジター)

データの密集しているところを見る方法としては、 ジター散布図は、データが30個くらいまでに適しています。 それ以上、多い場合は、 ヒストグラム箱ひげ図 の方が良いです。

スワームプロット

ジターでは、密集しにくくなるのですが、それでも密集するところが出て来ます。 スワームプロットだと、重ならないように、データを並べます。 結果的に、 ヒストグラム に近いグラフになっています。

下の2つのグラフはデータが同じで、右がスワームプロットです。
ペアプロット  スワームプロット
このグラフは seaborn で作りました。 seaborn では、ジターも作れます。

スワームプロットは重ならない点がジターよりも良いのですが、プロットの多いところが太過ぎになる事を避けたいこともあるので、万能ではないです。

RやPythonで描く

ggplot2seaborn という グラフ統計のソフト があります。



順路 次は ヒストグラム

Tweet データサイエンス教室