「 外れ値や欠損値 で、解析がうまくいかない」、「解析手法が 正規分布 を前提にしていて、データに当てはまらない」、 「データがちょっと変わっただけで、結果が大きく変わった」、と言った事が、扱うデータや解析の目的によっては、大きな問題になる事があります。 特に、大量データを扱う場合は、簡単な修正では対応できないので、深刻な問題になる事もあります。
こういった問題の起こりにくい手法は、ロバスト(頑健)と言えます。 このページでは、ロバストな手法をまとめてみました。
定量的な仮説の探索 の時は、データの様子が大まかに分かれば良い事が多いです。 ロバストな方法では、データの細かいところで、解析がストップしにくくなるので便利です。
また、多くのロバストな手法は、全体的な計算量を減らせるようにもなっているので、 解析の速さという点でも有利です。 この点は、大量データには特に効いてきます。
決定木 が代表的ですが、量的データを質的データとして使う方法は、ロバストです。
質的データを使った解析 のページにまとめました。
サポートベクターマシン や k近傍法 は、注目すべきデータだけを使って解析結果を出す仕組みを持っているので、 外れ値の影響を受けにくくなっています。
中間層を使った解析 の全部が当てはまるわけでもないのですが、 中間層を作る時に、外れ値の影響を小さくする事で、ロバストにする事ができます。
主成分回帰分析 が代表的です。
ちなみに、 サポートベクターマシン は、中間層を使う方法の一種ですが、外れ値に対してロバストにする目的では中間層を使っていません。
順路
次は
数理モデリング