ITの発達によって、世の中のコンピュータの中にあるデータは、膨大な量になっています。 ひとつの会社や、工場の中のデータも蓄積される一方です。
そのため、 「データから事実を見つけ、その事実を説明できる理由(仮説)を考える。」、 という方法が、威力を発揮する時代になっています。
この方法では、「データから事実を見つけ」の部分が肝心です。 データ解析者の力量が問われる部分です。 「データがたくさんあるから、 統計学 を使えば良い。 多変量の時は、 多変量解析 を使えば良い。」、と思う向きもあるようですが、 いわゆる「統計学」や「多変量解析」は、 今のように何でもかんでもデータ化する時代以前のデータに対して考えられたものなので、 これらを知っているだけでは足りません。 現代のデータ解析者には、 データリテラシー や データマイニング のセンスや力量も不可欠です。
定性的な仮説の探索 では、分析者が仮説を思い付けなければ、それまでです。 思い付ける範囲でしか、思い付けません。 また、「科学的に・・」とはいうものの、思い付く人の主観にも依存します。
一方、定量的な探索の方は、「データからわかることは何か」から始まりますので、 知識や経験豊富な人にとって、思いもよらないデータの関係性や、データの変化がわかることがあります。 思いもよらない事実を前にして、「もしかしたら、こういうことが起きているのかも。」、 と、新しい発想が出ることもあります。
この点で、定量的な探索は、定性的な探索の限界を超えられます。 データ解析者の腕の見せ所です。
定量的な探索は、スタートが表形式のデータになります。
基本は、表形式のデータがあった時に、
「この変数と似たような構造をしているのは、どの変数だろうか?」という探索になります。
当たり前のことですが、その事象に関係するようなデータが何もなければ、定量的な探索は役に立ちません。 定性的な探索と定量的な探索は、どっちかがあれば良いのではなく、相補的な関係です。
例えば、
@定性的な探索でデータを取る場所を決めて、データの蓄積を始める。
A取ったデータを定量的な探索で調べて、不可解な事があれば、
定性的な探索を使って考える。
B新たにデータを取る場所を決めて、データの蓄積を始める。
、というように、両方の方法を行ったり来たりして、レベルアップしながら進めるのが良いようです。
例えば、「時間、距離、速度」というデータを持っていて、 「距離は、時間と速度の積(掛け算)なので、距離の違いの原因は、時間か速度のどちらか」、 という解析をするのでしたら、データから直接、結論を出せます。
しかし、一口に「データ」と言ってもいろいろなものがあります。 また、名前は同じデータでも、背景がまったく異なることもあります。
そのため、データ解析でできる事は、「あくまでデータとして見えている事」と思った方が、大きな失敗にはなりにくいです。 筆者の場合は、「データからわかる事から、データの背後にある真実に迫る」くらいのつもりで、データ解析する事が多いです。
定量的な探索でも、機械学習モデルは役に立ちますが、予測を目的としている時とは異なります。 この点については、 機械学習モデルによる因果分析 のページがあります。
「仮説のつくりかた 多様なデータから新たな発想をつかめ」 石川博 著 共立出版 2021
この本で「仮説」と呼んでいるものは、主にデータ処理の出力を指しています。また、この本が対象としているのは、主に
計量地理学
です。
回帰分析や、クラスタリングによる仮説の生成の後に、差分による仮説の生成、仮説間差分、仮説間補完、仮説間和分、と続きます。
差分による仮説の生成というのは、時間的や空間的なデータの差を計算して分析する方法です。
仮説の補完や和分というのは、異なるデータの結果を組み合わせたり、間を取ったりしていく方法です。
順路 次は 機械学習モデルによる因果分析