トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

データサイエンス教室

散布図

散布図は、 分布のグラフ の仲間です。 データの分布を個別にチェックするためのグラフです。
1次元散布図 2次元散布図

強み

強みは、すべてのデータをプロットしますので、個々のデータの具体的な位置や値をチェックするのに向いていることです。

外れ値が目立ちやすいので、 外れ値の判定 でも重宝します。

弱点

データがある程度以上に、密集してしまう領域については、 「密集している」ということがわかるだけで、密集の度合いがわからないことです。 そのため、データが多い時には、うまく使えないことがあります。

この弱点が問題になる時は、ジターや、 ヒストグラムヒートマップ の方が良いことがあります。

ジター(散らばり散布図)

一次元散布図(ジター)
データが30個程度以上の時は、ヒストグラムが威力を発揮します。 データが10個程度までは、1次元散布図が威力を発揮します。

データが10〜30個の時は、1次元散布図だと、データが密集してよくわからない領域が出て来ることがあります。

データ解析のソフトには、データを適度に左右に散らばらせて、密集しにくくする機能がある場合があります。 「ジター(jitter)」という名前になっていたり、特に名前が付いていないソフトもあるようです。
(このページのジターは、Excelの乱数を使って描きました。)



順路 次は 言葉の散布図

Tweet