トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

データサイエンス教室

統計モデルによる予測

統計モデリングは、データにはばらつきがあることを前提にして、 データを使って導かれるモデルです。 多変量解析データマイニング は統計モデリングの仲間になります。

ブラックボックスモデリング

「精度の高い予測ができるのなら、数式がどうなっているのかは、気にしない」、という考え方で、 とにかく精度の高いモデルを作る方法を、ブラックボックスモデリングといいます。 機械学習 の分野では、暗黙のうちにブラックボックスモデリングが採用されていることが多いです。

ブラックボックスモデリングの実用化

素朴概念 が人間にはありますので、物理学の法則を使って計算しなくても、 飛んで来るボールの位置を予測して、捕ったり、打ったりすることができます。 素朴概念は、ブラックボックスモデリングです。

ディープラーニング による予測は、人間のこうした能力と似ています。 ディープラーニングの登場によって、ブラックボックスモデリングが使えるものが格段に増えました。

ディープラーニング以前の機械学習では、シンプルな構造のブラックボックスを使っていたため、 シンプルな仕組みの予測しかできませんでした。

予測のための基本的な手順

予測のための基本的な手順は、下記の2つのステップです。 この手順は 機械学習 の基本的な手順でもあります。

回帰分析の場合

難しそうな書き方をしましたが、例えば、 単回帰分析 の場合は、

という手順の事ですので、そんなに難しい話ではないと思います。 しかし、もっと複雑な式を使おうとすると、 予測のためのソフトの使い方 や、 ばらつきの作り方 の知識が必要になります。

予測の落とし穴

データサイエンス の中でも、 多変量解析データマイニング の統計的な手法は、予測の方法として説明される事がよくあります。 しかし、実際にやってみると、非常に当てはまりが良いモデルを作ったつもりでも、予測が大きく外れる事があります。 そのあたりの話をまとめてみました。




順路 次は 過学習

Tweet