トップページ |
統計学の解釈学 |
このサイトについて
以下は、筆者の私見です。 誤解があれば、ご教示いただけると幸いです。
「相関関係が因果関係を表しているとは限らない」という話題は、統計学の解説書でよく見かけます。
統計的因果推論 では、「相関関係を調べても因果関係の検証にはならないが、統計的因果推論は因果関係の検証になる」と主張しているのですが、誤解を招きやすい話になっています。 統計的因果推論ではどのようなことが説明されていて、どんなことで誤解しやすいのかについて、このページで整理してみました。
まず、「相関関係が因果関係を表しているとは限らない」という理由は2つあります。 こういったことが起こるので、相関関係を調べるだけでは、因果関係の検証にはならないです。
次に、統計的因果推論が因果関係の検証になる理由ですが、一口に「統計的因果推論」といっても、様々な手法があります。 以下では、ランダム化比較試験と、それ以外で分けます。
ランダム化比較試験(「A/Bテスト」とも呼ばれます)は、統計的因果推論では、最高・最強の方法として説明されます。
因果関係の検証になる一番の要素は、試験(実験)を実際にするところです。 現実にある人や物について、自分で原因をコントロールして得たデータなので、原因によって結果に違いが表れるのなら、それが因果関係の検証になります。
ランダムかどうかを気にせずに実験するだけでも検証になりますが、きちんとランダムにした方が、より良い実験になります。 そのため、ランダム化比較試験は、「最高・最強の方法」の方法ということになります。
統計的因果推論は統計学の一種で、統計学は数学の一種です。 ランダム化比較試験の中の数学的な部分は、「ランダム化」の部分です。 統計学の中には数理統計学のように、数学的な理論を極めていく分野もありますが、統計的因果推論の場合は、数学的な理論だけでなく、 現実に起きていることからデータを集める部分もセットになった分野になっています。
ランダム化比較試験だけの専門書は、少しあります。 ランダム化比較試験よりも、条件が複雑な場合の実験も含んでいる専門書は、「実験計画法」という名前でたくさんあります。
一方、統計的因果推論の専門書は、ランダム化比較試験についての話題が少なめで、試験をしないで因果関係を検証する話題が多めになっている傾向があります。
この方法として、「同じ対象にして、処置ありと処置なしで差があるのなら、それは因果関係がある証拠」とする考え方があります。 処置ありと処置なしの差は、「因果効果」と呼ばれます。
試験をしない統計的因果推論は、様々なデータの中から、「これは因果関係によって起きている」とみなすことができる部分を見つける方法を開発することで発展して来ています。因果関係を定量化する方法として、因果効果という指標を使っています。
誤解しやすいところを説明するための準備ができたので、以下は本題です。
因果効果が因果関係を表していることに疑いの余地がないのは、何を・いつ・どこで・どうやって測定したのかが把握できている場合です。
それが不明確なデータでは、疑似相関があるかもしれませんし、たまたま差が大きかったのかもしれないです。
「因果効果」という名前なことと、「処置あり・処置なし」の2条件で実験したデータと似ていることで、誤解を招きやすいようですが、 「相関関係が因果関係を表しているとは限らない」と同じことが、因果効果にも当てはまります。 相関係数が因果関係の大きさを表しているとは限らないのと同じように、因果効果が因果関係の大きさを表しているとは限らないです。
統計的仮説検定では、ばらつきを考慮して、差の有無を判定しようとします。
一方、統計的因果推論の専門書では、データのばらつきについては触れていないことが多いです。 そのため、ばらつきを考慮しないで進めても良いような誤解が起きるようです。
統計的因果推論の専門書では、データのばらつきについては触れていないことが多いのは、「紙数の都合」や「統計的仮説検定では扱っていない部分に重点を置いているから」と考えた方が良く、ばらつきを確認しなくても良い訳ではないです。
統計的因果推論の文献では、「相関関係が因果関係を表しているとは限らない」という説明をしてから、ランダム化比較試験なら因果関係の検証ができることを説明をする流れになっていることが多いようです。
ランダム化比較試験は、「処置あり・処置なし」の2条件で実験したデータから因果効果を計算する手順になっています。
そのため、「因果関係を検証するには、「処置あり・処置なし」の2条件のデータを用意しなければならない」、「相関関係のように、連続データ(条件が無数にあるデータ)では、因果関係の検証ができない」という誤解を招きやすいようですが、そんなことはないです。 どのようなデータなのかをきちんと把握しているのなら、相関関係のような連続データでも因果関係の検証はできます。
ちなみに、連続データの場合の因果効果を説明している文献は少ないです。 この場合は、直線の傾き(回帰分析の係数)が因果効果になります。
相関関係を使って、無向グラフを作ることはできますが、向きはわからないです。
ところで、データだけから有向グラフを作ることができます。 しかも、 有向グラフになるデータの構造 にあるように、複数の種類が開発されています。
このことから、「相関関係では、向きがわからないので、データから因果関係を見つけることができない。 因果探索では、向きがわかるので、データから因果関係を見つけることができる。」という誤解を招きやすいようですが、 向きがわかる事と、因果関係がわかる事は直結しないので、因果関係がわかる訳ではないです。
相関関係は、2変数の関係です。 「相関関係は、因果関係とは違う」を知っていれば、2変数しかない時に、「因果関係がわかる」と思う人は少ないです。
統計的因果推論では、注目している原因と結果の変数の他に、それらの変数に影響している3つ目の変数がある場合の考え方が研究されて来ています。また、 条件付き独立になるデータの構造 は、3変数以上ある時に作ることができる有向グラフです。
これらのことを知っていると、「3変数以上あれば、因果関係がわかる」という誤解を招きやすいようです。
しかし、3つ目の変数がある時の理論は、原因、結果、3つ目の変数について、因果関係がわかっていることが前提で、その因果関係での因果効果をより精確に計算するための理論です。 背景がわからないデータの中にある因果関係を明らかにするように作られた理論ではないです。
また、有向グラフが作れるからといって、因果関係がわかる訳ではないです。
(ちなみに、2変数しかなかったとしても、有向グラフは作れます。 回帰モデルになるデータの構造、 比例分散モデルになるデータの構造、 情報量の変化があるデータの構造 の3種類があります。)
説明可能なAI は、例えば、AIが「犬」と判定した時に、どこを見て判定したのかがわかるようにする技術です。
このことに対して、「説明可能なAIを使えば、因果関係がわかる」とは言えます。
しかし、この技術は、原因系の変数と、結果系の変数がわかっていることが前提です。 わかっていない状態で、その中にある未知の因果関係を導くことができる技術ではないです。
統計的因果推論では、「もしも処置ありの人が、処置なしだったら」という反事実の場合を見積もる方法が開発されています。 この応用で、同じ人について、処置ありと処置なしの差を因果効果として計算することができます。
統計的因果推論では、反事実の場合の精度を上げる方法や、 「目的変数と説明変数」というように2つに分かれているのではなく、もっと複雑な関数になっている場合が研究されて来ています。
ところで、従来からある予測モデルの方法でも、因果効果の計算はできます。 「処置あり・処置なし」という説明変数を含めるだけです。
