統計モデリングは、データにはばらつきがあることを前提にして、 データを使って導かれるモデルです。 多変量解析 や データマイニング は統計モデリングの仲間になります。
「精度の高い予測ができるのなら、数式がどうなっているのかは、気にしない」、という考え方で、 とにかく精度の高いモデルを作る方法を、ブラックボックスモデリングといいます。 機械学習 の分野では、暗黙のうちにブラックボックスモデリングが採用されていることが多いです。
素朴概念 が人間にはありますので、物理学の法則を使って計算しなくても、 飛んで来るボールの位置を予測して、捕ったり、打ったりすることができます。 素朴概念は、ブラックボックスモデリングです。
ディープラーニング による予測は、人間のこうした能力と似ています。 ディープラーニングの登場によって、ブラックボックスモデリングが使えるものが格段に増えました。
ディープラーニング以前の機械学習では、シンプルな構造のブラックボックスを使っていたため、 シンプルな仕組みの予測しかできませんでした。
予測のための基本的な手順は、下記の2つのステップです。 この手順は 機械学習 の基本的な手順でもあります。
難しそうな書き方をしましたが、例えば、 単回帰分析 の場合は、
という手順の事ですので、そんなに難しい話ではないです。 Excelで簡単に予測とシミュレーション にありますが、Excelなら式を作って値の代入をした計算をするための関数もあります。
回帰分析よりも、もっと複雑な式を使おうとすると、 予測のためのソフトの使い方 や、 ばらつきの作り方 の知識が必要になります。
データサイエンス の中でも、 多変量解析 や データマイニング の統計的な手法は、予測の方法として説明される事がよくあります。 しかし、実際にやってみると、非常に当てはまりが良いモデルを作ったつもりでも、予測が大きく外れる事があります。 そのあたりの話をまとめてみました。
順路 次は 過学習