トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

外挿

いざ予測となると、データ解析の根本的な問題にも注意が必要です。それが外挿(がいそう)の問題です。 外挿というのは、モデルを作る時に使ったデータの範囲外についての予測です。

例えば、温度が10〜20℃のデータを説明変数にしてモデルを作っていたら、30℃の場合の予測は外挿です。

外挿をする時は、モデルの妥当性が確認されていない事に、注意が必要です。 予測の目的によっては、外挿はしてはいけない事もあります。

外挿の扱い方

外挿を扱う場合、モデルの適用範囲と、その範囲からどの程度離れているのかを知っていると、判断の参考になります。 変数が少ないなら 2次元散布図、 多いなら マハラノビスの距離 が離れ具合の情報になります。 MT法単位空間 の考え方を使います。

例えば、10〜20℃の範囲でモデルを作っている時は、「30℃は予測が外れやすそうだけど、21℃なら、まずまずの精度で当たりそう。」と言った感じです。

時間的な外挿の落とし穴

時間的な外挿の落とし穴は、上記のような一般的な外挿の話や、過学習よりも、もっと根源的なデータ解析の落とし穴です。

この落とし穴を説明するのは、少々ややこしい部分もありますので、「 時間的な外挿の落とし穴 」のページに分けました。





順路 次は 時間的な外挿

データサイエンス教室