データがたくさんあると、「これだけあれば、品質を予測できるのでは?」と思えて来ます。
「 重回帰分析 のような線形のモデルなら、無理だろうが、非線形の複雑なモデルを使うと、できるかもしれない。」と思えて来ます。
時々、チャレンジしましたが、非線形の複雑なモデルが、成功したことはないです。
まず、思い付いたのが、 2乗や3乗の項、対数、逆数、交互作用の種類、等、様々な 特徴量エンジニアリング で変数をたくさん作る方法です。
「若干、改善」くらいの効果があることもありますが、このアプローチは、それほど期待できないです。
ニューラルネットワーク 系は、 過学習 が起きて、学習データについては、良さそうなモデルができたとしても、テストデータについては無力なモデルになりました。
決定木 は、ざっくりと 定量的な仮説の探索 をしたい時は、なかなか役に立つ方法です。
二進木よりもN進木、 回帰木よりもモデル木 普通のサンプリングよりもランダムフォレスト、 というようにして、仮説の探索の時は、より良い方法がありますが、予測モデルとしては、あまり良くありませんでした。
「ざっくり」な方法になってしまうところが理由としては、大きいです。