トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

データサイエンス教室

外れ値と欠損値

外れ値 欠損値

外れ値とは、データ全体の分布から外れている値です。 欠損値とは、空白になっている値です。 いずれも、ある程度の規模のデータを解析するようになると、出会う事が多いです。

外れ値や欠損値は、「 異常値 」、「ノイズ」、「ゴミデータ」、「バッドデータ」、「不完全データ」と呼ばれることもあります。 こういう言い方をされている時は、嫌な存在として見られています。 嫌われる原因は、これらがあると、統計モデルの当てはまりが悪くなったり、 ソフトで解析しようとした時に、エラーが出たりするからだと思います。

外れ値や欠損値は排除の対象となって、処理されてしまうこともあります。 しかし、外れ値や欠損値は、それ自体が何かの事実を表しているので、 排除によって大事な情報が見えなくなってしまう事があります。 場合によっては、解析が終わってから足元をすくわれます。

データ解析の目的によっては、外れ値や欠損値自体が解析対象になることもありますし、 外れ値や欠損値が含まれている理由がわかっていないと、解析が進められない事もあります。

データサイエンス の中で紹介されることの少ない話ですが、大事です。

外れ値と欠損値の関係

外れ値と欠損値は、データの見え方はだいぶ違いますが、発生した理由まで含めると、 単に見え方の違いだけの事もあります。 このため、外れ値の対処法が欠損値の対処法になる事がありますし、その逆もあります。

例えば、欠損値は、何かの理由で外れ値が発生した結果として、欠損値になっている事があります。

また、外れ値は、何かの理由で欠損値が発生した時に、他の値と区別するために、外れ値が代入されている事があります。

外れ値や欠損値なのに、データの見た目ではわかりにくい場合

欠損値が外れ値として記録されている例に似ているものは、他にもあります。 どれも、「外れ値は外れた値、欠損値は空白の部分」、という風にはなっていないので、データを機械的に処理しているだけだと、気付けないです。

質的データになっている場合

外れ値や欠損値は、「Invalid(無効)」や「No data(データなし)」という質的データになっている事もあります。

また、外れ値については、「Infinity(無限)」や、「∞(無限大)」という質的データになっている事もあります。

0の場合

欠損値なのかがとてもわかりにくいものに、0(ゼロ)があります。

例えば、夏の気温のデータなど、0は発生しないはずのデータが0になっている場合は、 欠損値の代わりに「0」という数字が入っている事を疑うと良いです。

0が入っている理由ですが、例えばEXCELの場合、空白になっているセルを別のセルから参照すると、別のセルの方の値は0になります。 計算式を使ったりして、元のデータを加工した場合、処理後のデータだけ見ると、欠損値の場所に数字が入ってしまい、わからなくなります。

ちなみに、この性質はプログラミングで利用する事があります。

一定値の場合 その1

本当は欠損値なのに、何かの値が入ってしまって、すべての値が一定値になっていることがあります。

この場合は、そのような変数が何かの役に立つことはないので、欠損値であることに気付けなくても問題は起きません。

一定値の場合 その2

すべての値が一定値ではなくても、折れ線グラフを描くと階段を上がったり下りたりするように、段階的に一定値が続く場合は、 欠損値が含まれている可能性があります。 この場合は、値の変わった瞬間のデータ以外は欠損値の可能性があります。

気にせずにデータを使っても、問題のないこともありますが、 特徴量エンジニアリング を駆使して、データを加工した方が良いこともあります。

例えば、1時間おき、10分おき、というように、異なる間隔で測定されたデータが混ざっていて、データは1分おきに記録されるようになっている場合、 新しい測定値が発生するまでは、ひとつ前の測定値がその時刻のデータとして記録され続けることがあります。

外れ値と欠損値の解析



よく言われる事との違い

ロバストな解析

独立成分分析



参考文献

健康を測る 」 林知己夫 著 勉誠出版 2004
欠損値も一例として出て来るのですが、昨今の データサイエンス がデータの背景や内容を気にしない点について、厳しく指摘しています。


順路 次は 外れや欠損の原因の解析

Tweet