トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

外れ値や欠損値のあるデータの解析

外れ値や欠損値が含まれているデータを解析する場合、方法がいくつかあります。それぞれについて、長所と短所をまとめてみました。

下記は、欠損値の場合としてまとめています。

外れ値については、このページのような事はせずに、そのままの値を使って解析する事もできますが、そのままの値を使うと、正常値の部分の解析結果の影響が大き過ぎる事があります。そのような時は、外れ値を欠損値のようにして、下記の方法を使うと良いです。

欠損のある行を抜く

筆者の知る限りですが、一般的な統計ソフトでは、欠損値が含まれている場合、特にユーザーにお知らせもしないで、黙って除いてしまうのが普通です。

つまり、「欠損のある行を抜く」は、一般的な統計ソフトのデフォルトになっています。

そのため、統計ソフトを使う時は、意識していないと、解析結果にこの方法の短所が入ってしまっている事に、気付きにくいです。

長所　：　とにかく一番簡単

短所　：　せっかく取ったデータが無駄になる。削除した割合があまり多いと、残ったデータの妥当性が怪しくなる。結果に偏りが起きる可能性がある。

補完する

ルールを決めて、欠損値に別の値を入れてしまう方法です。

その変数の正常データの平均値を入れる

長所　：　比較的簡単。正常データからわかる結果への影響は小さい。

短所　：　偏りが起きる可能性がある

最悪値を入れる

これと似ている方法として、外れ値をわざと入れたり、ある値以上で発生する事がわかっている場合は、その値を入れる方法もあります。

長所　：　欠損が発生する理由をある程度反映できる。

短所　：　正常データのばらつきが、意味のないものになる可能性がある

k近傍法で近くのデータから予測する

k近傍法を使って、近い値の平均値にします。

長所　：　欠損値が発生する理由が特別なものではないなら、補完法の中で、一番良さそうな方法

短所　：　欠損値の数が多い時は、計算が大変

EMアルゴリズムを使う

EMアルゴリズムは、最適化の手法としては、遺伝的アルゴリズムなどの仲間になります。

「欠損値は欠損値として残したまま、欠損していない部分をすべて使って、もっともらしい統計解析をする方法」、と言えるようです。、

長所　：　欠損値に人為的な操作が入らない

短所　：　欠損値が欠損している理由を無視するので、その理由がデータの背景として重要な場合は、解析の妥当性が怪しくなる。

「欠損値」という質的データとして扱う

欠損値は、「欠損値」などの質的データとしてしまい、決定木や、アソシエーション分析などの、質的データを使った解析する手法で解析します。

欠損値を含む変数の正常データは、「正常値」という質的データに変換する方法と、例えば、正常データを大きい順に３分割して、３つの質的データにする方法があります。

長所　：　データに人為的な加工が入らない。欠損が発生する理由を、解析に反映できる。

短所　：　正常データの持つ、細かな数値の情報が使えなくなる。（有効数字が粗くなる。）数式を求める解析手法は使えない。

ソフト

R-EDA1 では、量的変数が含まれているデータを質的変数をベースにした手法で分析しようとすると、自動的に量的変数は、１次元クラスタリングされて質的変数に変換されます。この時に欠損値は、「NA」というカテゴリになります。このため、例えば、アソシエーション分析やクラメールの連関係数を使う手法では、欠損値は、「NA」というカテゴリとして分析することができます。

さらに、R-EDA1の決定木や MT法などでは、欠損値を含む変数を、目的変数にした時に、「欠損値・欠損値以外」というカテゴリに変換する機能があります。これによって、欠損値が発生している理由に何か他の変数との関係があるのかが、調べられます。

Rでは、１次元クラスタリングをすると、欠損値は「NA」というカテゴリになります。

Natto によるアソシエーション分析では、欠損値は「」（空白）というカテゴリで扱われます。

欠損していないデータだけを見る

上記は、データからモデルを作る時の方法です。欠損値のあるデータを見る方法としては、一対評価のページに書きましたが、ネットワークグラフを使う手もあります。

ソフト

上記の方法のRの実施例は、 Rによる欠損値のあるデータの分析にあります。

参考文献

欠損値については、「欠測データ」や、「不完全データ」というタイトルで、本が出ています。基本的な内容はほぼ同じで、補完法やEMアルゴリズムの解説になっています。

外れ値については、異常値の予測という観点での本はあるのですが、「外れ値があるデータから、どのようにもっともらしい解析結果を出すのか」、という話については、まとまった本はないようです。本はないのですが、「ロバスト推定」や「M推定」で検索すれば、ネット上で解説がいろいろ見つかります。

外れ値

「ロバスト推定法とデータ解析(　物理学周辺の確率統計講座」　小柳義夫　著　日本物理学会誌　34(10) 1979.10
ロバストな解析をする方法として、中央値を使うものがあるが、中央以外のデータは、順番の情報しか活かされないという欠点がある。
「SALS」というロバスト推定法のソフトを作っている。外れ値をどのように扱うかは、解析者に任せられている。ソフトは、判断のガイドになるようです。
M推定や、L推定などが簡単に紹介されている。

欠損値

「欠測データの統計科学　医学と社会科学への応用」　高井啓二、星野崇宏,、野間久史　著　岩波書店　2016
欠損値の扱い方について、ガイドラインを作る動きが盛んになって来ているとの事です。「欠測データメカニズムの検討」という章があるのですが、欠測の発生の仕方がランダムかどうかの判定法の話でした。

「欠測データの統計解析　」　阿部貴行　著　朝倉書店　2016
不完全データを使った解析の大分類として、 (1)complete-case解析、(2)予測値で補完、(3)不完全データとして尤度を計算、の３つを挙げています。
(1)は、不完全データを含むサンプルは抜いてしまうものですが、何らかの重みを付けて、データの偏りを修正することもあるそうです。
5章が経時解析でした。

「不完全データの統計解析　」　岩崎学　著　エコノミスト社　2002
完全データの分析方法の後に、不完全な場合の対称法を解説しています。基本は、不完全であっても、そのまま計算して良いかどうか、という点のようです。
第４章が、物の寿命データ（打ち切りデータ）でした。

「社会調査の実際　統計調査の方法とデータの分析」　島崎哲彦　著　学文社　2011
アンケートの計画の仕方や、そのデータの統計解析を体系的にまとめた本です。欠損値の処理にも、簡単に触れています。

「ベイズ統計データ解析」　姜興起　著　共立出版　2010
状態空間モデルの欠損値の補間があります。状態空間モデルでは、欠損を抜いてモデルを作ったり、欠損の部分を推定するのがやりやすいです。

EMアルゴリズム

「21世紀の統計科学　数理・計算の統計科学」北川源四郎、竹村彰通　編　東京大学出版会 2008
EMアルゴリズムの章があります。数学の部分が丁寧に書かれています。

「情報理論の基礎　情報と学習の直観的理解のために」村田昇　著　サイエンス社 2008
emアルゴリズムという、EMアルゴリズムを情報幾何学的に説明したものが出て来ます。

順路次は有効次元数

杉原データサイエンス事務所によるコンサルティングとセミナー