トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

ロバストな解析

外れ値や欠損値 で、解析がうまくいかない」、「解析手法が 正規分布 を前提にしていて、データに当てはまらない」、 「データがちょっと変わっただけで、結果が大きく変わった」、と言った事が、扱うデータや解析の目的によっては、大きな問題になる事があります。 特に、大量データを扱う場合は、簡単な修正では対応できないので、深刻な問題になる事もあります。

こういった問題の起こりにくい手法は、ロバスト(頑健)と言えます。 このページでは、ロバストな手法をまとめてみました。

定量的な仮説の探索 の時は、データの様子が大まかに分かれば良い事が多いです。 ロバストな方法では、データの細かいところで、解析がストップしにくくなるので便利です。

また、多くのロバストな手法は、全体的な計算量を減らせるようにもなっているので、 解析の速さという点でも有利です。 この点は、大量データには特に効いてきます。

量的データを質的データとして使う方法

決定木 が代表的ですが、量的データを質的データとして使う方法は、ロバストです。

質的データを使った解析 のページにまとめました。

注目すべきデータだけを扱う方法

サポートベクターマシンk近傍法 は、注目すべきデータだけを使って解析結果を出す仕組みを持っているので、 外れ値の影響を受けにくくなっています。

中間層を使う方法

中間層を使った解析 の全部が当てはまるわけでもないのですが、 中間層を作る時に、外れ値の影響を小さくする事で、ロバストにする事ができます。

主成分回帰分析 が代表的です。

ちなみに、 サポートベクターマシン は、中間層を使う方法の一種ですが、外れ値に対してロバストにする目的では中間層を使っていません。

線形モデル・加法モデル

線形モデル や、 加法モデル は扱いやすいものですが、本当にこのモデルの通りに変数の関係ができているとは限らないです。

ただし、 足し算モデルと割り算モデル のページに似た話がありますが、加法モデル(足し算モデル)は、本当のモデル式としては正しくなかったとしても、 ざっくりとした分析なら使えなくもないという頑健さがあります。 そのため、構造方程式モデリング(加法モデル・足し算モデル)で、因果モデルを作るというのは、方針として悪くないようです。



ビッグデータの統計学と落とし穴

相関関係の探索

手法の使い分け

予測の落とし穴

外れ値と欠損値の解析



順路 次は 中間層を使った解析

Tweet データサイエンス教室