トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

外れや欠損の原因の解析

外れ値や欠損値のあるデータの解析 というものもありますが、外れ値や欠損値がある場合、 それが発生する理由を知っているに越した事はありません。

理由を知っていると、外れ値や欠損値が発生しないようにデータの取り方を工夫することができます。 何より、発生する理由が解析する事象に深く関わっている場合は、 知らないで解析を進めると、後で足元をすくわれかねません。

なお、外れ値や欠損値の発生メカニズムについての体系的な研究は、筆者の知る限りでは、ないようです。 統計学の中に、発生メカニズムの話が出て来る事がありますが、 欠損値の発生がランダムかどうかという点を見るだけのようです。

「ランダム」と判断できるのなら、 「発生理由にそんなにこだわらなくても良さそう」、という判断にもつながって来るので重要な情報になります。 また、ランダムな場合は、統計学の得意分野になります。 しかし、筆者の経験の範囲では、発生メカニズムの内容が解析に影響している事例ばかりです。

外れや欠損の理由の解析では、統計的な方法も使いますが、 外れや欠損の理由を突き止める方法としては、 統計学 関係の方法は、解析の前処理程度の存在になります。 解析のメインは、統計学ではない解析です。 メタ知識 による解析になります。

統計的な解析

外れ値の選別

統計ソフトには、外れ値を統計的に抽出する機能が付いている事があります。 LOF が有名です。

その機能は、 外れ値や欠損値を選別するための方法や、 外れの程度を数値化する方法としては役に立ちます。

判別問題として

外れ値や欠損値を含む変数が目的変数Yの場合や、説明変数Xだとしても、他の説明変数との関係で外れ値や欠損値の発生理由がわかりそうな場合は、 外れ値や欠損値をひとつのカテゴリとして、正常値というカテゴリとの 判別問題 にして、他の変数との関係を探ります。

外れ値や欠損値の性質から、 判別問題を扱う手法の中でも、 MT法 のアプローチが適している事が多いようです。

質的な説明変数として

外れ値や欠損値を含む変数が、Xの場合は、その変数の欠損値以外の正常データの部分は、 「正常値」という質的データにするか、いくつか区分して区分毎で質的データの名前を付けるか、という方法によって、 その変数を質的データとして扱う事ができます。

そうして、Yや他のXとの関係を見る事で、外れや欠損の理由を考察します。 多変量の場合は、 決定木 で外れ値や欠損値と、他の変数の関係を調べられることがあります。決定木や、 アソシエーション分析 などの、 質的データを使った解析 する手法で解析します。

外れ値だけど欠損値の問題、欠損値だけど外れ値の問題のケース

外れ値

外れ値は、何かの理由で欠損値が発生した時に、正常な値と区別するために、外れた値が使われている事があります。

その場合は、例えば、99999や、1000000などが使われます。 極端に外れてますし、他と比べると奇異なので、数字の見た目でわかります。

欠損値

欠損値は何らかの理由で外れ値が発生した結果として、欠損値になっている事があります。

「外れ値だから、記録したくない。」という理由で欠損している可能性もありますが、 例えば、外れ値が発生した時に、入力する場所が想定しているケタの数を超えてしまった場合もあります。

外れの理由の調査

冷蔵庫の中の温度のデータがあったとします。 3〜7℃位がデータの大多数になっているとします。 このデータの中に外れ値があった場合の解析方法を例にしてみます。

冷蔵庫の温度のような身近な話でしたら、一般的な知識を使って、ある程度は解析できます。 しかし、例えば、「機械の中の温度」では、何が通常の温度なのかがわかりません。 また、温度以外のもっと専門的な尺度のデータでは、さらに、常識だけでは太刀打ちできなくなって来ます。

こういったものを解析するのでしたら、統計学やITの知識だけではどうにもならないです。 その分野に詳しい人に協力してもらいながら解析するか、自分がその分野に詳しくなる必要があります。

欠損の理由の調査

欠損の理由は、記録する機械の仕様だったり、人が記入をしていないことが考えられ、数値的な考察よりも事実の調査が多くなります。

機械の問題の時は、ある値以上だと、機械が値を出力しなくなっていたりすることがあります。 または、通信トラブル等で、機械からデータベースがデータを受け取れなかった時に、データベースの中には空白として記録されていることもあります。



参考文献

POSITIVE DEVIANCE 学習する組織に進化する問題解決アプローチ」 リチャード・パスカル 他 著 東洋経済新報社 2021
集団の中で、成功した(ポジティブな)例外を見つけ、その理由を解明することで、集団全体を改善しようとするアプローチ(PD)を紹介しています。 例外の「統計的な意味での外れ値」とも表現しています。
考え方を変えるよりも、行動を変える方が簡単。逸脱している人の特徴は、行動が違うこと。ただし、よく見ないと他の人と違いがわからない。
PDのアプローチは、ボトムアップ。 集団を変える方法としては、トップダウンがよく使われるが、複雑な慣習に対しては有効ではない。 ただ、トップダウンに従うことが契約になっていることもあり、ボトムアップができないこともある。
PDは、同じ条件の中でのベストプラクティスを見つけるから、強力。外部でどんなにすばらしいものだとしても、条件が変わっても同じかはわからないため。
離職率の問題では、離職する理由ではなく、離職する人と同じ条件でも離職していない人に注目するのがPD。
この本の著者は、貧困、暴力などが身近にあり、心身の健康に問題を抱えている子供たちの状況を改善するためのNGOの活動していて、 その中でPDを使っています。 この本の内容の多くは、その話題です。PDどうこうの前に、深刻な社会問題とそれに直接的に対峙する方の姿には、言葉がありませんでした。
一部、製薬会社の営業を変えて行くために、ビジネスにPDを活用した話もあります。 この本は、翻訳者の方は、PDがビジネスを変革するアプローチとして、日本ではあまり知られていないことから、翻訳されたそうです。 翻訳者による、ビジネス向けの話が少しあります。


ロバスト推定法とデータ解析 物理学周辺の確率統計 講座」 小柳義夫 著 日本物理学会誌 34(10) 1979.10
裾が長い分布の極限が、コーシー分布(ローレンツ分布、ブライト・ウィグナー型分布)なので、 この分布よりも外れるかどうかは、測定に問題がないかのチェックに使える。
(この文献は、物理学のものなので、コーシー分布が役に立つようです。 筆者の経験の範囲ですが、 品質学 のデータ解析では、正規分布からの外れ方を見る方が実用的です。)


順路 次は 外れ値や欠損値のあるデータの解析

Tweet データサイエンス教室