トップページ | データサイエンスの失敗事例集 | このサイトについて

品質を予測するモデルが作れない

データがたくさんあると、「これだけあれば、品質を予測できるのでは?」と思えて来ます。

重回帰分析 のような線形のモデルなら、無理だろうが、非線形の複雑なモデルを使うと、できるかもしれない。」と思えて来ます。

時々、チャレンジしましたが、非線形の複雑なモデルが、成功したことはないです。

特徴量エンジニアリングでは解決しない話

まず、思い付いたのが、 2乗や3乗の項、対数、逆数、交互作用の種類、等、様々な 特徴量エンジニアリング で変数をたくさん作る方法です。

「若干、改善」くらいの効果があることもありますが、このアプローチは、それほど期待できないです。

ニューラルネットワーク系の難しさ

ニューラルネットワーク 系は、 過学習 が起きて、学習データについては、良さそうなモデルができたとしても、テストデータについては無力なモデルになりました。

決定木系の難しさ

決定木 は、ざっくりと 定量的な仮説の探索 をしたい時は、なかなか役に立つ方法です。

二進木よりもN進木、 回帰木よりもモデル木 普通のサンプリングよりもランダムフォレスト、 というようにして、仮説の探索の時は、より良い方法がありますが、予測モデルとしては、あまり良くありませんでした。

「ざっくり」な方法になってしまうところが理由としては、大きいです。



データサイエンス教室