統計モデルによる予測

統計モデリングは、データにはばらつきがあることを前提にして、データを使って導かれるモデルです。多変量解析やデータマイニングは統計モデリングの仲間になります。

ブラックボックスモデリング

「精度の高い予測ができるのなら、数式がどうなっているのかは、気にしない」、という考え方で、とにかく精度の高いモデルを作る方法を、ブラックボックスモデリングといいます。機械学習の分野では、暗黙のうちにブラックボックスモデリングが採用されていることが多いです。

素朴概念が人間にはありますので、物理学の法則を使って計算しなくても、飛んで来るボールの位置を予測して、捕ったり、打ったりすることができます。素朴概念は、ブラックボックスモデリングです。

ディープラーニングによる予測は、人間のこうした能力と似ています。ディープラーニングの登場によって、ブラックボックスモデリングが使えるものが格段に増えました。

ディープラーニング以前の機械学習では、シンプルな構造のブラックボックスを使っていたため、シンプルな仕組みの予測しかできませんでした。

予測のための基本的な手順は、下記の２つのステップです。この手順は機械学習の基本的な手順でもあります。

難しそうな書き方をしましたが、例えば、単回帰分析の場合は、

という手順の事ですので、そんなに難しい話ではないです。 Excelで簡単に予測とシミュレーションにありますが、Excelなら式を作って値の代入をした計算をするための関数もあります。

回帰分析よりも、もっと複雑な式を使おうとすると、予測のためのソフトの使い方や、ばらつきの作り方の知識が必要になります。

データサイエンスの中でも、多変量解析やデータマイニングの統計的な手法は、予測の方法として説明される事がよくあります。しかし、実際にやってみると、非常に当てはまりが良いモデルを作ったつもりでも、予測が大きく外れる事があります。そのあたりの話をまとめてみました。

順路次は過学習