定性的な仮説の探索 や、 定量的な仮説の探索 で、「こうではないか?」と気付いた事は、これだけでは想像の域を出ません。
仮説の検証は、 実験計画法 や、 シミュレーション 等を使って、実験的に検証する事が推奨される事が多いです。 しかし、何度も繰り返し起きない事は実験できないので、 論理的な妥当性を考えながら、 統計学 で納得できる検証を進める事もあります。
よくある失敗は、 定性的な仮説の探索 と 定量的な仮説の探索 のどちらでも起きます。
定性的の方は、表や図を作って、「できた!」とそれで満足し、原因がわかったようにして進めると起きる失敗です。 たいていの場合、最初にできる表や図は、思い込みの因果関係を書き表しただけになっていることが多いです。
定量的の方は、データは事実の一面を表したものに過ぎないのに、データを見れば、何でも解決するような気持ちでいると起きる失敗です。
データ分析を実務で初めて使う時に、よく起きます。
「このアルゴリズムを使えば、原因が特定できます」というような方法論を時々見かけますが、
こういった方法論は、広い意味で相関の高い変数を見つける方法なのが一般的なようです。
そのような方法論を使って、それで因果推論が終了するような気持ちになると、失敗しやすいかと思います。
仮説の検証は、机上では済まないことが多いです。
よく言われる事ですが、統計モデルでわかるのは、 相関関係 であって、因果関係ではないです。 YとXに相関があることがわかったとしても、 Xが原因であるとは言い切れませんし、YとXには共通の原因がある可能性もあります。
Yとして結果を表す変数を選んで、Xとして原因になっていそうな変数を選んで解析すると、 相関関係が見つかれば、因果関係が見つかったと思いたくなりますが、 因果関係があるかどうかは、使っているデータの メタ知識 を駆使したり、まったく別のアプローチで実験したりして、最終的には人の判断が必要です。
「YとXには共通の原因がある可能性」と上で書きましたが、これは 擬似相関 があるケースです。
相関関係があるように見えているものが、擬似相関である可能性は、常にあります。 擬似相関であるかどうかは、データだけではわかりません。
定量的な仮説の探索 で見つけた仮説は、 理由はなぜかはわからないながらも、事実を見つけた所から始まっていますので、 仮説の検証は、 定性的な仮説の探索 よりも、比較的楽なようです。
計量経済学 には、応用回帰分析としての側面と、因果推論としての側面があります。
「環境疫学入門」 山崎新 著 岩波書店 2009
扱っているテーマは、
疫学
です。
因果推論の方法論、水俣病などの公害の調査の事例、地球温暖化などの環境問題の人や生態系への影響の調査の事例で、3部構成になっています。
方法論は、相関関係を見るものと、原因と考えているものの有無と結果の発生率の違いの関係の有無を見るものがあります。
時間的な前後関係の整合性や、データのバイアスに気を付けながら、慎重に結論を出す感じです。
「統計学が最強の学問である データ社会を生き抜くための武器と教養」 西内啓 著 ダイヤモンド社 2013
タイトルからは入門書かと思ったのですが、レベルの高い本でした。
題材は著者の経歴を反映してか、医学関係が多いです。
また、統計学関係の諸学問の関係の説明も多いです。
企業の中でのデータ解析については、「その解析は利益につながるのか?」をチェックポイントにしている点が特徴でした。
「因果関係がわかった」とするデータ解析の報告は、
因果の向きが逆に解釈することもできる話があります。
データマイニングは、予測だけが目的なら優れたものだが、解析結果をアクションにつなげるのなら、回帰モデルの方が良いというスタンスでした。
「データサイエンス講義」 Rachel Schutt、Cathy O’Neil 著 瀬戸山雅人 他 訳 オライリー・ジャパン 2014
データサイエンス
としては珍しく、因果関係のデータ解析の話もあります。
しかし、このページでまとめたような話ではないです。
この本では、ABテストを目的にして、計画的にデータを集めて、それを解析するアプローチです。
解析するデータを意図的に集めていますので、このページでまとめたようなノウハウは必要ないです。
(このページで想定しているデータは、その解析以外の目的も含めて、事前に集められているものです。)
「多変量解析の展開 隠れた構造と因果を推理する」 甘利俊一 他 著 岩波書店 2002
複雑なデータの分析方法として、
独立成分分析
を紹介しています。
また、
パス解析、
SEM・共分散構造分析、
操作変数法
などの回帰分析をベースにした因果の分析を紹介しています。
順路 次は 統計的因果推論