トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

外れ値や欠損値のあるデータの解析

外れ値や欠損値 が含まれているデータを解析する場合、方法がいくつかあります。 それぞれについて、長所と短所をまとめてみました。

下記は、欠損値の場合としてまとめています。

外れ値については、このページのような事はせずに、そのままの値を使って解析する事もできますが、 そのままの値を使うと、正常値の部分の解析結果の影響が大き過ぎる事があります。 そのような時は、外れ値を欠損値のようにして、下記の方法を使うと良いです。

欠損のある行を抜く

筆者の知る限りですが、 一般的な統計ソフトでは、欠損値が含まれている場合、特にユーザーにお知らせもしないで、 黙って除いてしまうのが普通です。

つまり、「欠損のある行を抜く」は、一般的な統計ソフトのデフォルトになっています。

そのため、統計ソフトを使う時は、意識していないと、解析結果にこの方法の短所が入ってしまっている事に、気付きにくいです。

長所 : とにかく一番簡単

短所 : せっかく取ったデータが無駄になる。 削除した割合があまり多いと、残ったデータの妥当性が怪しくなる。 結果に偏りが起きる可能性がある。

補完する

ルールを決めて、欠損値に別の値を入れてしまう方法です。

その変数の正常データの平均値を入れる

長所 : 比較的簡単。 正常データからわかる結果への影響は小さい。

短所 : 偏りが起きる可能性がある

最悪値を入れる

これと似ている方法として、外れ値をわざと入れたり、ある値以上で発生する事がわかっている場合は、その値を入れる方法もあります。

長所 : 欠損が発生する理由をある程度反映できる。

短所 : 正常データのばらつきが、意味のないものになる可能性がある

k近傍法で近くのデータから予測する

k近傍法 を使って、近い値の平均値にします。

長所 : 欠損値が発生する理由が特別なものではないなら、補完法の中で、一番良さそうな方法

短所 : 欠損値の数が多い時は、計算が大変

EMアルゴリズムを使う

EMアルゴリズムは、最適化の手法としては、 遺伝的アルゴリズム などの仲間になります。

「欠損値は欠損値として残したまま、欠損していない部分をすべて使って、もっともらしい統計解析をする方法」、と言えるようです。、

長所 : 欠損値に人為的な操作が入らない

短所 : 欠損値が欠損している理由を無視するので、その理由がデータの背景として重要な場合は、解析の妥当性が怪しくなる。

「欠損値」という質的データとして扱う

欠損値は、「欠損値」などの質的データとしてしまい、 決定木や、 アソシエーション分析 などの、 質的データを使った解析 する手法で解析します。

欠損値を含む変数の正常データは、「正常値」という質的データに変換する方法と、 例えば、正常データを大きい順に3分割して、3つの質的データにする方法があります。

長所 : データに人為的な加工が入らない。 欠損が発生する理由を、解析に反映できる。

短所 : 正常データの持つ、細かな数値の情報が使えなくなる。 (有効数字が粗くなる。) 数式を求める解析手法は使えない。

ソフト

R-EDA1 では、量的変数が含まれているデータを質的変数をベースにした手法で分析しようとすると、 自動的に量的変数は、 1次元クラスタリング されて質的変数に変換されます。 この時に欠損値は、「NA」というカテゴリになります。 このため、例えば、 アソシエーション分析クラメールの連関係数 を使う手法では、欠損値は、「NA」というカテゴリとして分析することができます。

さらに、R-EDA1の 決定木MT法 などでは、欠損値を含む変数を、目的変数にした時に、「欠損値・欠損値以外」というカテゴリに変換する機能があります。 これによって、欠損値が発生している理由に何か他の変数との関係があるのかが、調べられます。

Rでは、 1次元クラスタリング をすると、欠損値は「NA」というカテゴリになります。

Natto によるアソシエーション分析では、欠損値は「 」(空白)というカテゴリで扱われます。

欠損していないデータだけを見る

上記は、データからモデルを作る時の方法です。 欠損値のあるデータを見る方法としては、 一対評価 のページに書きましたが、 ネットワークグラフ を使う手もあります。

ソフト

上記の方法のRの実施例は、 Rによる欠損値のあるデータの分析 にあります。




参考文献

欠損値については、「欠測データ」や、「不完全データ」というタイトルで、本が出ています。 基本的な内容はほぼ同じで、補完法やEMアルゴリズムの解説になっています。

外れ値については、 異常値の予測 という観点での本はあるのですが、 「外れ値があるデータから、どのようにもっともらしい解析結果を出すのか」、という話については、まとまった本はないようです。 本はないのですが、「ロバスト推定」や「M推定」で検索すれば、ネット上で解説がいろいろ見つかります。


外れ値

ロバスト推定法とデータ解析( 物理学周辺の確率統計 講座」 小柳義夫 著 日本物理学会誌 34(10) 1979.10
ロバストな解析をする方法として、 中央値 を使うものがあるが、中央以外のデータは、順番の情報しか活かされないという欠点がある。
「SALS」というロバスト推定法のソフトを作っている。 外れ値をどのように扱うかは、解析者に任せられている。ソフトは、判断のガイドになるようです。
M推定や、L推定などが簡単に紹介されている。


欠損値

欠測データの統計科学 医学と社会科学への応用」 高井啓二、星野崇宏,、野間久史 著 岩波書店 2016
欠損値の扱い方について、ガイドラインを作る動きが盛んになって来ているとの事です。 「欠測データメカニズムの検討」という章があるのですが、 欠測の発生の仕方がランダムかどうかの判定法の話でした。


欠測データの統計解析 」 阿部貴行 著 朝倉書店 2016
不完全データを使った解析の大分類として、 (1)complete-case解析、(2)予測値で補完、(3)不完全データとして尤度を計算、の3つを挙げています。
(1)は、不完全データを含むサンプルは抜いてしまうものですが、何らかの重みを付けて、データの偏りを修正することもあるそうです。
5章が経時解析でした。


不完全データの統計解析 」 岩崎学 著 エコノミスト社 2002
完全データの分析方法の後に、不完全な場合の対称法を解説しています。 基本は、不完全であっても、そのまま計算して良いかどうか、という点のようです。
第4章が、物の 寿命データ(打ち切りデータ)でした。


社会調査の実際 統計調査の方法とデータの分析」 島崎哲彦 著 学文社 2011
アンケート の計画の仕方や、そのデータの統計解析を体系的にまとめた本です。 欠損値の処理にも、簡単に触れています。


ベイズ統計データ解析」 姜興起 著 共立出版 2010
状態空間モデル の欠損値の補間があります。 状態空間モデルでは、欠損を抜いてモデルを作ったり、欠損の部分を推定するのがやりやすいです。


EMアルゴリズム

21世紀の統計科学 数理・計算の統計科学」 北川源四郎、竹村彰通 編 東京大学出版会 2008
EMアルゴリズム の章があります。数学の部分が丁寧に書かれています。


情報理論の基礎 情報と学習の直観的理解のために」 村田昇 著 サイエンス社 2008
emアルゴリズムという、EMアルゴリズムを情報幾何学的に説明したものが出て来ます。




順路 次は 有効次元数

データサイエンス教室