ITの発達によって、世の中のコンピュータの中にあるデータは、膨大な量になっています。 ひとつの会社や、工場の中のデータも蓄積される一方です。
そのため、 「データから事実を見つけ、その事実を説明できる理由(仮説)を考える。」、 という方法が、威力を発揮する時代になっています。
この方法では、「データから事実を見つけ」の部分が肝心です。 データ解析者の力量が問われる部分です。 「データがたくさんあるから、 統計学 を使えば良い。 多変量の時は、 多変量解析 を使えば良い。」、と思う向きもあるようですが、 いわゆる「統計学」や「多変量解析」は、 今のように何でもかんでもデータ化する時代以前のデータに対して考えられたものなので、 これらを知っているだけでは足りません。 現代のデータ解析者には、 データリテラシー や データマイニング のセンスや力量も不可欠です。
定性的な仮説の探索 では、分析者が仮説を思い付けなければ、それまでです。 思い付ける範囲でしか、思い付けません。 また、「科学的に・・」とはいうものの、思い付く人の主観にも依存します。
一方、定量的な探索の方は、「データからわかることは何か」から始まりますので、 知識や経験豊富な人にとって、思いもよらないデータの関係性や、データの変化がわかることがあります。 思いもよらない事実を前にして、「もしかしたら、こういうことが起きているのかも。」、 と、新しい発想が出ることもあります。
この点で、定量的な探索は、定性的な探索の限界を超えられます。 データ解析者の腕の見せ所です。
定量的な探索は、スタートが表形式のデータになります。
基本は、表形式のデータがあった時に、
「この変数と似たような構造をしているのは、どの変数だろうか?」という探索になります。
当たり前のことですが、その事象に関係するようなデータが何もなければ、定量的な探索は役に立ちません。 定性的な探索と定量的な探索は、どっちかがあれば良いのではなく、相補的な関係です。
例えば、
@定性的な探索でデータを取る場所を決めて、データの蓄積を始める。
A取ったデータを定量的な探索で調べて、不可解な事があれば、
定性的な探索を使って考える。
B新たにデータを取る場所を決めて、データの蓄積を始める。
、というように、両方の方法を行ったり来たりして、レベルアップしながら進めるのが良いようです。
例えば、「時間、距離、速度」というデータを持っていて、 「距離は、時間と速度の積(掛け算)なので、距離の違いの原因は、時間か速度のどちらか」、 という解析をするのでしたら、データから直接、結論を出せます。
しかし、一口に「データ」と言ってもいろいろなものがあります。 また、名前は同じデータでも、背景がまったく異なることもあります。
そのため、データ解析でできる事は、「あくまでデータとして見えている事」と思った方が、大きな失敗にはなりにくいです。 筆者の場合は、「データからわかる事から、データの背後にある真実に迫る」くらいのつもりで、データ解析する事が多いです。
予測が目的で統計モデルを使う時には、一番当てはまりが良くなるようにモデル式の係数の値を計算したり、 いくつかの統計モデルで一番当てはまりの良いものを探します。 そして、それを予測のモデルとして使いますので、 モデルの妥当性やロバスト性にこだわります。 変数を選択する時や、モデルの妥当性を判断する時に、「寄与率は○○以上」、「分散比は○○以上」、と言った判断基準があります。
しかし、因果推論が目的の時は、こういったこだわりは必要ないです。 判断基準の値は、例えば、「この変数をモデルに入れると、寄与率が高くなるのはなぜだ?」、と言った考察をするのに使いますので、 使い方が違います。
予測の時でもそうなのですが、統計モデルはあくまで統計モデルですので、 現象を表すモデルとしては、ぴったりではないことがよくあります。(現実と統計モデルとのギャップ) ただ、複雑な現象や膨大なデータから因果関係を見つけたい時に、いろいろなヒントを得るための道具として、すごく役に立ちます。
「仮説のつくりかた 多様なデータから新たな発想をつかめ」 石川博 著 共立出版 2021
この本で「仮説」と呼んでいるものは、主にデータ処理の出力を指しています。また、この本が対象としているのは、主に
計量地理学
です。
回帰分析や、クラスタリングによる仮説の生成の後に、差分による仮説の生成、仮説間差分、仮説間補完、仮説間和分、と続きます。
差分による仮説の生成というのは、時間的や空間的なデータの差を計算して分析する方法です。
仮説の補完や和分というのは、異なるデータの結果を組み合わせたり、間を取ったりしていく方法です。
順路
次は
相関関係による仮説の探索