外れ値とは、データ全体の分布から外れている値です。 欠損値とは、空白になっている値です。 いずれも、ある程度の規模のデータを解析するようになると、出会う事が多いです。
外れ値や欠損値は、「 異常値 」、「ノイズ」、「ゴミデータ」、「バッドデータ」、「不完全データ」と呼ばれることもあります。 こういう言い方をされている時は、嫌な存在として見られています。 嫌われる原因は、これらがあると、統計モデルの当てはまりが悪くなったり、 ソフトで解析しようとした時に、エラーが出たりするからだと思います。
外れ値や欠損値は排除の対象となって、処理されてしまうこともあります。 しかし、外れ値や欠損値は、それ自体が何かの事実を表しているので、 排除によって大事な情報が見えなくなってしまう事があります。 場合によっては、解析が終わってから足元をすくわれます。
データ解析の目的によっては、外れ値や欠損値自体が解析対象になることもありますし、 外れ値や欠損値が含まれている理由がわかっていないと、解析が進められない事もあります。
データサイエンス の中で紹介されることの少ない話ですが、大事です。
外れ値と欠損値は、データの見え方はだいぶ違いますが、発生した理由まで含めると、 単に見え方の違いだけの事もあります。 このため、外れ値の対処法が欠損値の対処法になる事がありますし、その逆もあります。
例えば、欠損値は、何かの理由で外れ値が発生した結果として、欠損値になっている事があります。
また、外れ値は、何かの理由で欠損値が発生した時に、他の値と区別するために、外れ値が代入されている事があります。
欠損値が外れ値として記録されている例に似ているものは、他にもあります。 どれも、「外れ値は外れた値、欠損値は空白の部分」、という風にはなっていないので、データを機械的に処理しているだけだと、気付けないです。
外れ値や欠損値は、「Invalid(無効)」や「No data(データなし)」という質的データになっている事もあります。
また、外れ値については、「Infinity(無限)」や、「∞(無限大)」という質的データになっている事もあります。
欠損値なのかがとてもわかりにくいものに、0(ゼロ)があります。
例えば、夏の気温のデータなど、0は発生しないはずのデータが0になっている場合は、 欠損値の代わりに「0」という数字が入っている事を疑うと良いです。
0が入っている理由ですが、例えばEXCELの場合、空白になっているセルを別のセルから参照すると、別のセルの方の値は0になります。 計算式を使ったりして、元のデータを加工した場合、処理後のデータだけ見ると、欠損値の場所に数字が入ってしまい、わからなくなります。
ちなみに、この性質はプログラミングで利用する事があります。
本当は欠損値なのに、何かの値が入ってしまって、すべての値が一定値になっていることがあります。
この場合は、そのような変数が何かの役に立つことはないので、欠損値であることに気付けなくても問題は起きません。
すべての値が一定値ではなくても、折れ線グラフを描くと階段を上がったり下りたりするように、段階的に一定値が続く場合は、 欠損値が含まれている可能性があります。 この場合は、値の変わった瞬間のデータ以外は欠損値の可能性があります。
気にせずにデータを使っても、問題のないこともありますが、 特徴量エンジニアリング を駆使して、データを加工した方が良いこともあります。
例えば、1時間おき、10分おき、というように、異なる間隔で測定されたデータが混ざっていて、データは1分おきに記録されるようになっている場合、 新しい測定値が発生するまでは、ひとつ前の測定値がその時刻のデータとして記録され続けることがあります。
「健康を測る 」 林知己夫 著 勉誠出版 2004
欠損値も一例として出て来るのですが、昨今の
データサイエンス
がデータの背景や内容を気にしない点について、厳しく指摘しています。
順路 次は 外れや欠損の原因の解析