トップページ |
統計学の解釈学 |
このサイトについて
以下は、筆者の私見です。 誤解があれば、ご教示いただけると幸いです。
統計的因果推論 では、「因果推論の根本問題」と言われているものがあります。 「同じ対象に対して、処置ありと、処置なしの両方を同時に観測できない」 という問題です。
2010年頃からの統計的因果推論では、この問題を中心とした話題が盛んで、どのように対応すれば良いのかが研究されて来ています。
なお、この根本問題が当てはまるのは、「人への薬の投与」のようなテーマの場合です。 例えば、物の因果関係の場合や、人だとしても、可逆な現象の場合は、この根本問題が当てはまらないです。
ところで、上記の問題が根本問題なら、他にも「根本問題」と呼べそうなものがあります。 下の図の中で、ひとつめは、有名な根本問題です。 その他の3つは、筆者が思い当たる根本問題です。
問題への対応ですが、ひとつめの根本問題は、統計的因果推論の文献で紹介されているものと同じです。 その他の3つについては、筆者がどのようにしているのかを付記しました。
例えば、毎回、「1、2、3」のどれかの目盛りに合わせて調節していたとします。 その場合、目盛りの値が原因で、調節後の値が結果です。 そして、調節後の値は、0〜4くらいの範囲に、連続的にばらつくとします。
この例の場合は、「原因よりも結果の方が、ばらつく」となっています。 2つの変数について、それぞれのばらつきを調べれば、どちらが原因なのかを特定できます。
では、内容のわからない変数が2つあって、片方のばらつきが大きかった場合、「原因と結果を特定できる」と言えるでしょうか? 2つの変数には、因果関係がないかもしれません。 また、因果関係があったとしても、ばらつきが大きい方が原因かもしれません。 さらには、ばらつきが大きい方が結果だとしても、2つの変数の因果関係は、ばらつきとは無関係かもしれません。
これらの可能性があるので、何らかの定義によって、有向グラフを作れたとしても、矢印の向きが因果関係の向きを表しているとは限らないです。 因果関係を定義しなければ、因果探索の方法が作れないのですが、因果関係を定義できないです。
現実の現象について、因果関係を解明したい人は、どのような因果関係のメカニズムがあるのかがわからないデータ、しかも、部分ごとに因果関係のメカニズムが異なっていそうなデータを、因果探索のツールで扱おうとします。
扱っている因果関係と、矢印の定義が合うのなら、有向グラフは因果関係を表す図になります。 しかし、筆者の経験する限りでは、そうなったことはないです。
「相関関係があれば、因果関係があるとは限らない。因果関係があれば、相関関係があるとは限らない」ということは、よく言われます。 有向グラフについては、 「何らかのルールに基づいて作った有向グラフが、因果関係を表すとは限らない。因果関係があれば、有向グラフで表せる」となっています。 こうなっている理由の主要な部分は、相関関係と因果関係の話と同じで、「データからわかること(相関関係や、有向グラフになる構造)と、因果関係は必ずしも一致しない」という点です。
因果関係を定義して、因果関係をデータから直接的に導き出そうとするアプローチに無理があり、問題の原因になっています。
しかし、 有向グラフになるデータの構造 を念頭に置いて因果探索を実行すれば、どのような構造になっているのかがわかります。
データの構造がわかると、データへの理解が深まります。 それを、因果関係を明らかにするための、手掛かりとして使います。
「スイッチがONで、点灯。スイッチがOFFで、消灯」の場合、スイッチが原因で、ライトが結果です。 この場合は、因果関係が明確です。
ところが、「スイッチがONでも、点灯する時と、しない時がある」という場合は、因果関係が複雑になります。 電気関係なら、スイッチとライトの間をつなぐ部分のどこかで、接触が不安定になっていると、このような現象が起きます。 この場合、「つなぐ部分のどこか」が交絡因子と考えられます。
シンプルな物で起こる因果関係の場合は、交絡因子を特定できることもありますが、 人の体や、日本経済などのように、複雑なもので起こる因果関係では、交絡因子をすべて見つけるのは不可能です。
統計的因果推論では、「交絡因子がなければ」、「交絡因子がすべて把握できていて、そのデータが取得できていれば」、「交絡因子の影響の仕方が加法的ならば」という前提で理論が作られているので、そもそも交絡因子がわからないのは問題です。
統計的因果推論は、「その因果関係は、なぜ成り立っているのか?」というメカニズムは明らかにせずに、成り立っていることを証明しようとします。
ライトの例では、「スイッチのON・OFFで、電気が流れる・流れないを変えている。ライトは、電気が流れると点灯する」ということを知っていれば、 「スイッチがONでも、点灯する時としない時がある」という場合に、何を調べれば良いのか、推察できるようになります。
因果関係のメカニズムは、仮説でも良いので、考えておくようにすると、未知の交絡因子によって、因果関係が崩れて来た時に、すばやく対応できます。
「統計的因果推論は、因果関係の仮説を導く方法」と思いたくなりますが、「適切なデータがあれば」という大前提があります。
一方、「適切なデータ」として使えるデータは、「これは後で利用できるデータになる」と考えて記録されています。 因果関係の仮説がなければ、「後で利用できる」とは思わないです。 「卵がなければ、ニワトリは生まれない。ニワトリがいなければ、卵は生まれない」のような話になっています。
そのため、「既存のデータを調べたら、未知の現象の因果関係が発見できた」ということには、とてもなりにくいです。
数千、数万、数十万のような数の変数があるビッグデータがあると、「これを調べれば、因果関係を明らかにできるはず」と思いたくなりますが、 ビッグデータかどうかと、必要なデータが含まれているかどうかは、別の話です。 そのため、どんなにすばらしいデータ基盤を持っていたとしても、目の前のテーマに対して、決め手にならないことがあります。
筆者の場合、因果探索の方法を使う時に、「因果関係を明らかにできる方法」ということでは使わないです。 「因果関係を明らかにするための、手掛かりを得るための方法」と思って使っています。
手掛かりを得た後は、「データにはなっていないことについて、現地・現物を調べて因果関係を明らかにしていく」、という流れになることが多いです。
