トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

定量的な仮説の探索

ITの発達によって、世の中のコンピュータの中にあるデータは、膨大な量になっています。 ひとつの会社や、工場の中のデータも蓄積される一方です。

そのため、 「データから事実を見つけ、その事実を説明できる理由(仮説)を考える。」、 という方法が、威力を発揮する時代になっています。

この方法では、「データから事実を見つけ」の部分が肝心です。 データ解析者の力量が問われる部分です。 「データがたくさんあるから、 統計学 を使えば良い。 多変量の時は、 多変量解析 を使えば良い。」、と思う向きもあるようですが、 いわゆる「統計学」や「多変量解析」は、 今のように何でもかんでもデータ化する時代以前のデータに対して考えられたものなので、 これらを知っているだけでは足りません。 現代のデータ解析者には、 データリテラシーデータマイニング のセンスや力量も不可欠です。

定量的な探索の力

定性的な仮説の探索 では、分析者が仮説を思い付けなければ、それまでです。 思い付ける範囲でしか、思い付けません。 また、「科学的に・・」とはいうものの、思い付く人の主観にも依存します。

一方、定量的な探索の方は、「データからわかることは何か」から始まりますので、 知識や経験豊富な人にとって、思いもよらないデータの関係性や、データの変化がわかることがあります。 思いもよらない事実を前にして、「もしかしたら、こういうことが起きているのかも。」、 と、新しい発想が出ることもあります。

この点で、定量的な探索は、定性的な探索の限界を超えられます。 データ解析者の腕の見せ所です。

定量的な探索のスタート地点

定量的な探索は、スタートが表形式のデータになります。

基本は、表形式のデータがあった時に、 「この変数と似たような構造をしているのは、どの変数だろうか?」という探索になります。
多変量のデータ

定量的な探索の限界

当たり前のことですが、その事象に関係するようなデータが何もなければ、定量的な探索は役に立ちません。 定性的な探索と定量的な探索は、どっちかがあれば良いのではなく、相補的な関係です。

例えば、
@定性的な探索でデータを取る場所を決めて、データの蓄積を始める。
A取ったデータを定量的な探索で調べて、不可解な事があれば、 定性的な探索を使って考える。
B新たにデータを取る場所を決めて、データの蓄積を始める。
、というように、両方の方法を行ったり来たりして、レベルアップしながら進めるのが良いようです。

真実と、データからわかる事の違い

例えば、「時間、距離、速度」というデータを持っていて、 「距離は、時間と速度の積(掛け算)なので、距離の違いの原因は、時間か速度のどちらか」、 という解析をするのでしたら、データから直接、結論を出せます。

しかし、一口に「データ」と言ってもいろいろなものがあります。 また、名前は同じデータでも、背景がまったく異なることもあります。

そのため、データ解析でできる事は、「あくまでデータとして見えている事」と思った方が、大きな失敗にはなりにくいです。 筆者の場合は、「データからわかる事から、データの背後にある真実に迫る」くらいのつもりで、データ解析する事が多いです。

予測のために機械学習モデルを使う時との違い

定量的な探索でも、機械学習モデルは役に立ちますが、予測を目的としている時とは異なります。 この点については、 機械学習モデルによる因果分析 のページがあります。



参考文献

因果推論の実務

仮説のつくりかた 多様なデータから新たな発想をつかめ」 石川博 著 共立出版 2021
この本で「仮説」と呼んでいるものは、主にデータ処理の出力を指しています。また、この本が対象としているのは、主に 計量地理学 です。
回帰分析や、クラスタリングによる仮説の生成の後に、差分による仮説の生成、仮説間差分、仮説間補完、仮説間和分、と続きます。 差分による仮説の生成というのは、時間的や空間的なデータの差を計算して分析する方法です。
仮説の補完や和分というのは、異なるデータの結果を組み合わせたり、間を取ったりしていく方法です。



順路 次は 機械学習モデルによる因果分析

Tweet データサイエンス教室