トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

定量的な仮説の探索

ITの発達によって、世の中のコンピュータの中にあるデータは、膨大な量になっています。ひとつの会社や、工場の中のデータも蓄積される一方です。

そのため、 「データから事実を見つけ、その事実を説明できる理由（仮説）を考える。」、という方法が、威力を発揮する時代になっています。

この方法では、「データから事実を見つけ」の部分が肝心です。データ解析者の力量が問われる部分です。「データがたくさんあるから、統計学を使えば良い。多変量の時は、多変量解析を使えば良い。」、と思う向きもあるようですが、いわゆる「統計学」や「多変量解析」は、今のように何でもかんでもデータ化する時代以前のデータに対して考えられたものなので、これらを知っているだけでは足りません。現代のデータ解析者には、データリテラシーやデータマイニングのセンスや力量も不可欠です。

定量的な探索の力

定性的な仮説の探索では、分析者が仮説を思い付けなければ、それまでです。思い付ける範囲でしか、思い付けません。また、「科学的に・・」とはいうものの、思い付く人の主観にも依存します。

一方、定量的な探索の方は、「データからわかることは何か」から始まりますので、知識や経験豊富な人にとって、思いもよらないデータの関係性や、データの変化がわかることがあります。思いもよらない事実を前にして、「もしかしたら、こういうことが起きているのかも。」、と、新しい発想が出ることもあります。

この点で、定量的な探索は、定性的な探索の限界を超えられます。データ解析者の腕の見せ所です。

定量的な探索のスタート地点

定量的な探索は、スタートが表形式のデータになります。

基本は、表形式のデータがあった時に、「この変数と似たような構造をしているのは、どの変数だろうか？」という探索になります。
多変量のデータ

定量的な探索の限界

当たり前のことですが、その事象に関係するようなデータが何もなければ、定量的な探索は役に立ちません。定性的な探索と定量的な探索は、どっちかがあれば良いのではなく、相補的な関係です。

例えば、
①定性的な探索でデータを取る場所を決めて、データの蓄積を始める。
②取ったデータを定量的な探索で調べて、不可解な事があれば、定性的な探索を使って考える。
③新たにデータを取る場所を決めて、データの蓄積を始める。
、というように、両方の方法を行ったり来たりして、レベルアップしながら進めるのが良いようです。

真実と、データからわかる事の違い

例えば、「時間、距離、速度」というデータを持っていて、「距離は、時間と速度の積（掛け算）なので、距離の違いの原因は、時間か速度のどちらか」、という解析をするのでしたら、データから直接、結論を出せます。

しかし、一口に「データ」と言ってもいろいろなものがあります。また、名前は同じデータでも、背景がまったく異なることもあります。

そのため、データ解析でできる事は、「あくまでデータとして見えている事」と思った方が、大きな失敗にはなりにくいです。筆者の場合は、「データからわかる事から、データの背後にある真実に迫る」くらいのつもりで、データ解析する事が多いです。

予測のために機械学習モデルを使う時との違い

定量的な探索でも、機械学習モデルは役に立ちますが、予測を目的としている時とは異なります。この点については、機械学習モデルによる因果分析のページがあります。

参考文献

因果推論の実務

「仮説のつくりかた　多様なデータから新たな発想をつかめ」　石川博　著　共立出版　2021
この本で「仮説」と呼んでいるものは、主にデータ処理の出力を指しています。また、この本が対象としているのは、主に計量地理学です。
回帰分析や、クラスタリングによる仮説の生成の後に、差分による仮説の生成、仮説間差分、仮説間補完、仮説間和分、と続きます。差分による仮説の生成というのは、時間的や空間的なデータの差を計算して分析する方法です。
仮説の補完や和分というのは、異なるデータの結果を組み合わせたり、間を取ったりしていく方法です。

順路次は機械学習モデルによる因果分析

杉原データサイエンス事務所によるコンサルティングとセミナー