一般的に「散布図」と言えば、 2次元散布図 のことですが、1次元の散布図もあります。
1次元散布図は、 1次元分布のグラフ の仲間です。 データの分布を個別にチェックするためのグラフです。
強みは、すべてのデータをプロットしますので、個々のデータの具体的な位置や値をチェックするのに向いていることです。
外れ値が目立ちやすいので、 外れ値の判定 でも重宝します。
データがある程度以上に、密集してしまう領域については、 「密集している」ということがわかるだけで、密集の度合いがわからないことです。 そのため、データが多い時には、うまく使えないことがあります。
この弱点が問題になる時ですが、一般的には、 ヒストグラム や 箱ひげ図 が良いです。 ソフトによっては、ジターやスワームプロットでも良いこともあります。
データ解析のソフトには、データを適度に左右に散らばらせて、密集しにくくする機能がある場合があります。 「ジター(jitter)」という名前になっていたり、特に名前が付いていないソフトもあるようです。
下の2つのグラフはデータが同じなのですが、ジターの有無の違いがあります。
ジターにすると、プロットが重なっていたところが、だいぶバラバラになっています。
データの密集しているところを見る方法としては、 ジター散布図は、データが30個くらいまでに適しています。 それ以上、多い場合は、 ヒストグラム や 箱ひげ図 の方が良いです。
ジターでは、密集しにくくなるのですが、それでも密集するところが出て来ます。 スワームプロットだと、重ならないように、データを並べます。 結果的に、 ヒストグラム に近いグラフになっています。
下の2つのグラフはデータが同じで、右がスワームプロットです。
このグラフは
seaborn
で作りました。
seaborn
では、ジターも作れます。
スワームプロットは重ならない点がジターよりも良いのですが、プロットの多いところが太過ぎになる事を避けたいこともあるので、万能ではないです。
ggplot2 、 seaborn という グラフ統計のソフト があります。
順路 次は ヒストグラム