トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

仮説の検証(実証分析)

定性的な仮説の探索 や、 定量的な仮説の探索 で、「こうではないか?」と気付いた事は、これだけでは想像の域を出ません。

仮説の検証は、 実験計画法 や、 シミュレーション 等を使って、実験的に検証する事が推奨される事が多いです。 しかし、何度も繰り返し起きない事は実験できないので、 論理的な妥当性を考えながら、 統計学 で納得できる検証を進める事もあります。

仮説の検証が必要な理由

よくある失敗

よくある失敗は、 定性的な仮説の探索定量的な仮説の探索 のどちらでも起きます。

定性的の方は、表や図を作って、「できた!」とそれで満足し、原因がわかったようにして進めると起きる失敗です。 たいていの場合、最初にできる表や図は、思い込みの因果関係を書き表しただけになっていることが多いです。

定量的の方は、データは事実の一面を表したものに過ぎないのに、データを見れば、何でも解決するような気持ちでいると起きる失敗です。 データ分析を実務で初めて使う時に、よく起きます。 「このアルゴリズムを使えば、原因が特定できます」というような方法論を時々見かけますが、 こういった方法論は、広い意味で相関の高い変数を見つける方法なのが一般的なようです。 そのような方法論を使って、それで因果推論が終了するような気持ちになると、失敗しやすいかと思います。
仮説の検証が必要な理由

成功しやすい進め方

仮説の検証は、机上では済まないことが多いです。
仮説の検証が必要な理由

相関関係と因果関係の関係

よく言われる事ですが、統計モデルでわかるのは、 相関関係 であって、因果関係ではないです。 YとXに相関があることがわかったとしても、 Xが原因であるとは言い切れませんし、YとXには共通の原因がある可能性もあります。

Yとして結果を表す変数を選んで、Xとして原因になっていそうな変数を選んで解析すると、 相関関係が見つかれば、因果関係が見つかったと思いたくなりますが、 因果関係があるかどうかは、使っているデータの メタ知識 を駆使したり、まったく別のアプローチで実験したりして、最終的には人の判断が必要です。

擬似相関の可能性

「YとXには共通の原因がある可能性」と上で書きましたが、これは 擬似相関 があるケースです。

相関関係があるように見えているものが、擬似相関である可能性は、常にあります。 擬似相関であるかどうかは、データだけではわかりません。

定量的に探索した仮説の検証

定量的な仮説の探索 で見つけた仮説は、 理由はなぜかはわからないながらも、事実を見つけた所から始まっていますので、 仮説の検証は、 定性的な仮説の探索 よりも、比較的楽なようです。

計量経済学:実証分析

筆者の知る限りですが、 回帰分析 の一般的な紹介では、データに偏りがある可能性、説明変数と誤差項に相関がある可能性、そして、その対処法としての操作変数法が紹介される事はないです。

一方で、計量経済学の文献では、これらの話が主な内容になる事が多く、入門的なテキストでも紹介されています。 文献によっては、 時系列解析 にもページを割いている場合があります。

計量経済学では、これらの手法を「実証分析」と呼んでいます。




参考文献

データ分析の力 因果関係に迫る思考法」 伊藤公一朗 著 光文社 2017
因果関係を分析する方法の本です。
ランダム化比較実験:ランダムサンプリングされたデータを理想としています。
RDデザイン:国境など、世の中にある様々な境界線を、水準の境目と考えて、分析します。
集積分析:社員の等級など、世の中にある様々な階段上の変化を、水準の境目と考えて、分析します。
パネルデータ分析:介入の有無と、介入の前後のわかるデータを探し、介入の効果を検証します。


環境疫学入門」 山崎新 著 岩波書店 2009
扱っているテーマは、 疫学 です。 因果推論の方法論、水俣病などの公害の調査の事例、地球温暖化などの環境問題の人や生態系への影響の調査の事例で、3部構成になっています。
方法論は、相関関係を見るものと、原因と考えているものの有無と結果の発生率の違いの関係の有無を見るものがあります。 時間的な前後関係の整合性や、データのバイアスに気を付けながら、慎重に結論を出す感じです。


統計的因果推論」 岩崎学 著 朝倉書店 2015
事象と事象の間に因果関係がある事を言うには、そうでないパターンもわかっている必要がある、と言った話を丁寧に解説しています。
こういったデータを取るには、実験的なアプローチがベストですが、社会科学など、実験ができない場合は、観察研究になります。
観察研究では、実験研究とは異なり、必ず偏りが起きる。 データの集め方など、できるだけ実験研究に近付けると良い。その方法のひとつが傾向スコア。 8章までが、薬などの効果の有無の分析です。
9章のケースコントロールは、結果の原因を探る方法になります。 原因と考えられるものが、本当に原因なのかを調べます。


岩波データサイエンス Vol.3」 岩波データサイエンス刊行委員会 編 岩波書店 2016
相関と因果の違いは、後者は、Xに介入する事で、Yが変わるという性質を持っている事。 これを確認するためのデータの取り方をまとめています。
バックドア基準、準実験のデザイン、傾向スコア、操作変数、と言った事が話題です。
因と果の両方のデータが取れていれば可能になる分析方法が、まとめられている印象でした。


統計学が最強の学問である データ社会を生き抜くための武器と教養」  西内啓 著 ダイヤモンド社 2013
タイトルからは入門書かと思ったのですが、レベルの高い本でした。 題材は著者の経歴を反映してか、医学関係が多いです。 また、統計学関係の諸学問の関係の説明も多いです。
企業の中でのデータ解析については、「その解析は利益につながるのか?」をチェックポイントにしている点が特徴でした。 「因果関係がわかった」とするデータ解析の報告は、 因果の向きが逆に解釈することもできる話があります。 データマイニングは、予測だけが目的なら優れたものだが、解析結果をアクションにつなげるのなら、回帰モデルの方が良いというスタンスでした。


データサイエンス講義」 Rachel Schutt、Cathy O’Neil 著 瀬戸山雅人 他 訳 オライリー・ジャパン 2014
データサイエンス としては珍しく、因果関係のデータ解析の話もあります。
しかし、このページでまとめたような話ではないです。 この本では、ABテストを目的にして、計画的にデータを集めて、それを解析するアプローチです。 解析するデータを意図的に集めていますので、このページでまとめたようなノウハウは必要ないです。
(このページで想定しているデータは、その解析以外の目的も含めて、事前に集められているものです。)


経営・会計の実証分析入門 SPSSによる企業モデル分析」 門田安弘 著 中央経済社 2003
経営のテーマについての、回帰分析ロジスティック回帰分析分散分析の本です。


計量経済学

データ分析をマスターする12のレッスン」 畑農鋭矢・水落正明 著 有斐閣 2017
回帰分析 の話が豊富です。 質的な原因の回帰分析として 数量化理論 、質的な結果の回帰分析として ロジスティック回帰分析 もあります。
「最終学歴の考え方に注意する」等、社会や経済のデータを扱う時の具体的な注意点も多いです。


「原因と結果」の経済学 データから真実を見抜く思考法」 中室牧子・津川友介 著 ダイヤモンド社 2017
因果関係と相関関係は違うことの話から始まり、 因果関係を検証するためには、反事実が必要な事を説明しています。
反事実を得るには実験が一番ですが、実験できない時は、ありもののデータでどのように実験に近い分析をするのかが説明されています。
全体的に平易で明快です。


Rによる実証分析 回帰分析から因果分析へ」 星野匡郎・田中久稔 著 オーム社 2016
前半が回帰分析の一般論で、後半が一般的な回帰分析では、因果関係が表現できない場合の応用的な回帰分析です。 Rの実施例もあります。
まず、バイアスへの対応は、ランダム化実験やマッチング法。
Xと誤差項に相関がある場合(Xが内生変数)のモデルが、操作変数法。 XのXとして、操作変数という変数を想定します。


実証分析入門 データから「因果関係」を読み解く作法」 森田果 著 日本評論社 2014
読み切りの形で、楽しくエッセイ風に解説されています。
社会科学の分野では、1回しか起きていない事件を扱ったりするので、 データの再現性を議論できないことがあるそうです。
この本の内容は、 検定回帰分析ベイズ統計 、サバイバル法、操作変数法、 テキストマイニング 等ですが、これらを使う目的が因果推論になっています。
サンプリング はランダムにすると、バイアスがかかりにくい。
異常値があっても、原因が特定できなければ、除外しない方が良い。


新しい計量経済学 データで因果関係に迫る」 鹿野繁樹 著 日本評論社 2015
回帰分析を丁寧に解説しています。
非実験データのための因果分析として、操作変数法。
非線形の回帰分析として、 プロビットモデル、ロジットモデル 、トービットモデル。 この本の計算は、「gretl(グレーテル)」というフリーソフトでできるそうです。


計量経済学の第一歩 実証分析のススメ」 田中隆一 著 有斐閣 2015
重回帰分析 を、外的変数を操作できるモデルとしています。 このモデルがどのような計算をしているかを理解して、使えるようになるため、統計学の初歩から解説しています。
その後に、操作変数法、パネルデータ分析、マッチング法、回帰不連続デザインです。
操作変数法:  擬似相関 がある時に、説明変数とは相関があるが、目的変数とは相関のない変数を探して来て、それを操作する。
パネルデータ分析: パネルデータ(繰り返し測定されたデータ)を使うと、要因の制御ができる。
マッチング法: 条件や、環境がまったく同じではないが、似ているものを探して、効果の有無を見る。
回帰不連続デザイン: 政策導入を瞬間的な変化として、その前後の変化の仕方に注目しつつ、政策導入の効果を見る。


EViewsで学ぶ実証分析入門 基礎編」 北岡孝義・高橋青天・矢野順治 編著 日本評論社 2008
EViewsというソフトのマニュアルと、計量経済学の入門書になっています。 応用編の方もそうですが、いわゆる多変量解析の方法で手持ちのデータを調べる、 という教科書でよくある内容ではなく、知りたい事を知るために、ひと手間加えた分析をしています。
この本は 重回帰分析 で、生産関数を分析します。 モンテカルロ法でデータを作って、回帰分析で調べるアプローチをしています。


EViewsで学ぶ実証分析入門 応用編」 北岡孝義・高橋青天・矢野順治 編著 日本評論社 2008
VAR(Vector Autoregressive Model:ベクトル自己回帰モデル): 変数が2つあり、相互作用しながら変化する時のモデルで、政策の効果の分析をしています。 インパルス反応として、瞬間的な変化があった後の変化を調べてます。
GMM(Generalized Methods of Moments:一般化積率法):ヒストグラムでGMMという量を見ると、何かがわかるようです。
ボラティリティ分析:経済のデータは、分散が不均一な事があるそうです。 その対応として、ARCHとその応用版があります。
トービット・モデル:ある条件や範囲のYやXのデータがない場合のモデル。 (データがない事によって、何がわかって、何がわからなくなるのかは、筆者にはわかりませんでした。)
パネル分析:多変量の時系列分析



順路 次は システム理論

Tweet データサイエンス教室