杉原データサイエンス事務所のロゴ トップページ | 統計学の解釈学 | このサイトについて

因果推論の根本問題は、複数ある

以下は、筆者の私見です。 誤解があれば、ご教示いただけると幸いです。


統計的因果推論 では、「因果推論の根本問題」と言われているものがあります。 「同じ対象に対して、処置ありと、処置なしの両方を同時に観測できない」 という問題です。

2010年頃からの統計的因果推論では、この問題を中心とした話題が盛んで、どのように対応すれば良いのかが研究されて来ています。

なお、この根本問題が当てはまるのは、「人への薬の投与」のようなテーマの場合です。 例えば、物の因果関係の場合や、人だとしても、可逆な現象の場合は、この根本問題が当てはまらないです。


ところで、上記の問題が根本問題なら、他にも「根本問題」と呼べそうなものがあります。 下の図の中で、ひとつめは、有名な根本問題です。 その他の3つは、筆者が思い当たる根本問題です。

問題への対応ですが、ひとつめの根本問題は、統計的因果推論の文献で紹介されているものと同じです。 その他の3つについては、筆者がどのようにしているのかを付記しました。

因果推論の根本問題

「因果関係を定義できない」問題

例えば、毎回、「1、2、3」のどれかの目盛りに合わせて調節していたとします。 その場合、目盛りの値が原因で、調節後の値が結果です。 そして、調節後の値は、0〜4くらいの範囲に、連続的にばらつくとします。

この例の場合は、「原因よりも結果の方が、ばらつく」となっています。 2つの変数について、それぞれのばらつきを調べれば、どちらが原因なのかを特定できます。

では、内容のわからない変数が2つあって、片方のばらつきが大きかった場合、「原因と結果を特定できる」と言えるでしょうか? 2つの変数には、因果関係がないかもしれません。 また、因果関係があったとしても、ばらつきが大きい方が原因かもしれません。 さらには、ばらつきが大きい方が結果だとしても、2つの変数の因果関係は、ばらつきとは無関係かもしれません。

これらの可能性があるので、何らかの定義によって、有向グラフを作れたとしても、矢印の向きが因果関係の向きを表しているとは限らないです。 因果関係を定義しなければ、因果探索の方法が作れないのですが、因果関係を定義できないです。


現実の現象について、因果関係を解明したい人は、どのような因果関係のメカニズムがあるのかがわからないデータ、しかも、部分ごとに因果関係のメカニズムが異なっていそうなデータを、因果探索のツールで扱おうとします。

扱っている因果関係と、矢印の定義が合うのなら、有向グラフは因果関係を表す図になります。 しかし、筆者の経験する限りでは、そうなったことはないです。

「相関関係があれば、因果関係があるとは限らない。因果関係があれば、相関関係があるとは限らない」ということは、よく言われます。 有向グラフについては、 「何らかのルールに基づいて作った有向グラフが、因果関係を表すとは限らない。因果関係があれば、有向グラフで表せる」となっています。 こうなっている理由の主要な部分は、相関関係と因果関係の話と同じで、「データからわかること(相関関係や、有向グラフになる構造)と、因果関係は必ずしも一致しない」という点です。

「因果関係を定義できない」問題への対応

因果関係を定義して、因果関係をデータから直接的に導き出そうとするアプローチに無理があり、問題の原因になっています。

しかし、 有向グラフになるデータの構造 を念頭に置いて因果探索を実行すれば、どのような構造になっているのかがわかります。

データの構造がわかると、データへの理解が深まります。 それを、因果関係を明らかにするための、手掛かりとして使います。

「交絡因子がわからない」問題

「スイッチがONで、点灯。スイッチがOFFで、消灯」の場合、スイッチが原因で、ライトが結果です。 この場合は、因果関係が明確です。

ところが、「スイッチがONでも、点灯する時と、しない時がある」という場合は、因果関係が複雑になります。 電気関係なら、スイッチとライトの間をつなぐ部分のどこかで、接触が不安定になっていると、このような現象が起きます。 この場合、「つなぐ部分のどこか」が交絡因子と考えられます。

シンプルな物で起こる因果関係の場合は、交絡因子を特定できることもありますが、 人の体や、日本経済などのように、複雑なもので起こる因果関係では、交絡因子をすべて見つけるのは不可能です。

統計的因果推論では、「交絡因子がなければ」、「交絡因子がすべて把握できていて、そのデータが取得できていれば」、「交絡因子の影響の仕方が加法的ならば」という前提で理論が作られているので、そもそも交絡因子がわからないのは問題です。

「交絡因子がわからない」問題への対応

統計的因果推論は、「その因果関係は、なぜ成り立っているのか?」というメカニズムは明らかにせずに、成り立っていることを証明しようとします。

ライトの例では、「スイッチのON・OFFで、電気が流れる・流れないを変えている。ライトは、電気が流れると点灯する」ということを知っていれば、 「スイッチがONでも、点灯する時としない時がある」という場合に、何を調べれば良いのか、推察できるようになります。

因果関係のメカニズムは、仮説でも良いので、考えておくようにすると、未知の交絡因子によって、因果関係が崩れて来た時に、すばやく対応できます。

「データがない」問題

「統計的因果推論は、因果関係の仮説を導く方法」と思いたくなりますが、「適切なデータがあれば」という大前提があります。

一方、「適切なデータ」として使えるデータは、「これは後で利用できるデータになる」と考えて記録されています。 因果関係の仮説がなければ、「後で利用できる」とは思わないです。 「卵がなければ、ニワトリは生まれない。ニワトリがいなければ、卵は生まれない」のような話になっています。

そのため、「既存のデータを調べたら、未知の現象の因果関係が発見できた」ということには、とてもなりにくいです。

数千、数万、数十万のような数の変数があるビッグデータがあると、「これを調べれば、因果関係を明らかにできるはず」と思いたくなりますが、 ビッグデータかどうかと、必要なデータが含まれているかどうかは、別の話です。 そのため、どんなにすばらしいデータ基盤を持っていたとしても、目の前のテーマに対して、決め手にならないことがあります。

「データがない」問題への対応

筆者の場合、因果探索の方法を使う時に、「因果関係を明らかにできる方法」ということでは使わないです。 「因果関係を明らかにするための、手掛かりを得るための方法」と思って使っています。

手掛かりを得た後は、「データにはなっていないことについて、現地・現物を調べて因果関係を明らかにしていく」、という流れになることが多いです。




杉原データサイエンス事務所のロゴ
杉原データサイエンス事務所によるコンサルティングとセミナー