品質を予測するモデルが作れない

データがたくさんあると、「これだけあれば、品質を予測できるのでは？」と思えて来ます。

「重回帰分析のような線形のモデルなら、無理だろうが、非線形の複雑なモデルを使うと、できるかもしれない。」と思えて来ます。

時々、チャレンジしましたが、非線形の複雑なモデルが、成功したことはないです。

特徴量エンジニアリングでは解決しない話

まず、思い付いたのが、２乗や３乗の項、対数、逆数、交互作用の種類、等、様々な特徴量エンジニアリングで変数をたくさん作る方法です。

「若干、改善」くらいの効果があることもありますが、このアプローチは、それほど期待できないです。

ニューラルネットワーク系は、過学習が起きて、学習データについては、良さそうなモデルができたとしても、テストデータについては無力なモデルになりました。

決定木は、ざっくりと定量的な仮説の探索をしたい時は、なかなか役に立つ方法です。

二進木よりもN進木、回帰木よりもモデル木普通のサンプリングよりもランダムフォレスト、というようにして、仮説の探索の時は、より良い方法がありますが、予測モデルとしては、あまり良くありませんでした。

「ざっくり」な方法になってしまうところが理由としては、大きいです。