トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

ロバストな解析

「外れ値や欠損値で、解析がうまくいかない」、「解析手法が正規分布を前提にしていて、データに当てはまらない」、「データがちょっと変わっただけで、結果が大きく変わった」、と言った事が、扱うデータや解析の目的によっては、大きな問題になる事があります。特に、大量データを扱う場合は、簡単な修正では対応できないので、深刻な問題になる事もあります。

こういった問題の起こりにくい手法は、ロバスト（頑健）と言えます。このページでは、ロバストな手法をまとめてみました。

定量的な仮説の探索の時は、データの様子が大まかに分かれば良い事が多いです。ロバストな方法では、データの細かいところで、解析がストップしにくくなるので便利です。

また、多くのロバストな手法は、全体的な計算量を減らせるようにもなっているので、解析の速さという点でも有利です。この点は、大量データには特に効いてきます。

量的データを質的データとして使う方法

決定木が代表的ですが、量的データを質的データとして使う方法は、ロバストです。

質的データを使った解析のページにまとめました。

注目すべきデータだけを扱う方法

サポートベクターマシンや k近傍法は、注目すべきデータだけを使って解析結果を出す仕組みを持っているので、外れ値の影響を受けにくくなっています。

中間層を使う方法

中間層を使った解析の全部が当てはまるわけでもないのですが、中間層を作る時に、外れ値の影響を小さくする事で、ロバストにする事ができます。

主成分回帰分析が代表的です。

ちなみに、サポートベクターマシンは、中間層を使う方法の一種ですが、外れ値に対してロバストにする目的では中間層を使っていません。

線形モデル・加法モデル

線形モデルや、加法モデルは扱いやすいものですが、本当にこのモデルの通りに変数の関係ができているとは限らないです。

ただし、足し算モデルと割り算モデルのページに似た話がありますが、加法モデル（足し算モデル）は、本当のモデル式としては正しくなかったとしても、ざっくりとした分析なら使えなくもないという頑健さがあります。そのため、構造方程式モデリング（加法モデル・足し算モデル）で、因果モデルを作るというのは、方針として悪くないようです。

順路次は中間層を使った解析

杉原データサイエンス事務所によるコンサルティングとセミナー