「統計モデル」をタイトルに書きましたが、 このページの「統計モデル」は、 回帰分析 のような統計学のモデルの他に、 機械学習 や システム同定 の分野のように統計学を応用しているものも念頭に置いています。 人工知能(AI) も入ります。
比較的新しい手法として、 ランダムフォレスト のように、いろいろなモデルを作って、複数のモデルでデータを解析するアプローチがあります。 また、統計ソフトを使えば、「いろいろな方法をとりあえず試して、一番良さそうな統計モデルを探す。」、 というアプローチが簡単にできるようになってきています。 AutoML(自動機械学習) と呼ばれるものもあります。
そのためだと思いますが、 「データがあれば、最適なモデルの構築が簡単にできるようになっている。」 とか、 「コンピュータだけで最適なモデルが作れるようになって来ているので、 近い将来、モデル作りに人は不要になる。」という記事を、時々、見かけます。
例えば、温度、圧力、体積、等のデータがあったとします。
それらを使って、理想気体の状態方程式
PV = nRT
を導き出せる統計モデルはあるでしょうか?
筆者は、ないと思います。
PVやPT等の変数を予め計算しておけば、導けるかもしれませんが、 それは答えの式を知っているからそういった変数を思い付くのであって、 予備知識がない所から始めたら、難しいと思います。
一見簡単そうで、実は難しい式として理想気体の状態方程式を挙げてみましたが、 実在気体のモデルとなれば、さらに難しい問題になります。 微分方程式 が答えのモデルだとすると、もっと難しくなりそうです。
状態方程式を例にしてみましたが、自然現象の法則を表すモデルと、統計モデルにはギャップがあります。
統計学は主に静的な現象のモデルを、システム同定は主に動的な現象のモデルを作ろうとしますが、 いずれにしても、その手法だけで「答え」になるようなモデルに行き着くのは至難の業です。
「モデル式でデータを説明したい。」という目的がある時に、 統計学から提案されているモデルだけでは、目的を達成できないことが多いです。
しかし、「モデル式はこうかもしれない。」、という仮説があった時に、 その仮説が正しいかどうかを調べる方法として、 統計モデルは威力を発揮します。 統計モデルが役にたつ形のモデル式を作るには、 データフィジクス(データ物理学) や 数理モデリング の役割が大きいです。
たいていのデータには、 誤差 がありますので、モデル式にぴったり当てはまるデータを扱うことは、あまりありません。 誤差のあるデータを使っていても、「モデル式はこうです。」というための 仮説の検証(実証分析) に、統計モデルが役に立ちます。
「データから、そのデータの背景にある数理モデルを導く」という問題は、 一般的には、「 逆問題 」と呼ばれています。
逆問題を解く方法としては、「統計モデルはデータを扱う道具のひとつ」、といったくらいの位置付けになります。
こういう話は、いわゆる科学者は、昔からやって来ている事ですが、 データサイエンス の中では、ほとんど意識されていないようです。
「Amazonランキングの謎を解く 確率的な順位付けが教える売上の構造」 服部哲弥 著 化学同人 2011
Amazonの本のランキングは、1時間に1回更新されるそうです。
この本は、それがそのどのような数理になっているのか、また、どのような意味があるのかについての本です。
Amazonが実際にどうやってランキングを決めているのかではなく、
Amazonが出力したものから、数理モデルを考察しています。
こうした研究は、このサイトでは
逆問題
と言っています。この本では
確率過程
や
流体力学
の話も出てきますので、かなり高度です。
世の中に起きている実際の現象に対して、数理モデルを考えるアプローチの参考書としても、良いように思いました。
「2015年のビッグデータ」 日経ビッグデータ 編 日経BP社 2015
ビッグデータ関連の話題を集大成した本です。
最後の方で、20年間データ解析に携わって来た方が、データ解析がうまくいかない時の理由を、いろいろと挙げられている部分があります。
その中で、
単位が異なる等の理由で、本来、足してはいけない数字を、足してしまうという話がありました。
このページの話とは違いますが、統計モデルの誤用として似ていると思いました。
順路 次は 複雑なモデルの難しさ