トップページ |
ひとつ上のページ |
目次ページ |
このサイトについて | ENGLISH
符号反転 のページでは、符号反転の例のひとつを説明しています。
このページでは、その他の例を説明します。
筆者は、どのようなデータの場合に符号反転が起きるのかを、できるだけ網羅的に調べてみました。 MECEな分析 です。 調べたものを体系的に整理したら、12パターンありました。
12パターンは、重回帰分析をする時に、変数間の持っている関係を分類したものです。
12パターンであるかどうかと、符号反転が起きるかどうかは、無関係です。
そのパターンになれば、必ず符号反転が起きるのではなく、符号反転が起きる条件になっていると起きます。
符号反転が起きる条件は、
符号反転
のページで説明しています。
世の中の解説では、説明変数間に相関がある場合を、符号反転が起きる例として説明することが多いです。
以下の、@からGは、説明変数間の相関が強い場合を細かく分けています。
このデータは、以下の式を使って、作っています。 X2は0と1しかなく、二値になっています。
この例は、シンプソンのパラドックスの一種です。
X1とYのグラフを見ると、6個のサンプル全体では、負の相関になっているのですが、X2の値でグループ分けすると、グループの中では、正の相関になっています。
「Y予測値」は、X1とX2の両方を説明変数にした重回帰分析で推定した値です。
YとY予測値が直線的に並ぶと、精度が高いことを意味しています。
重回帰分析の係数は、データの生成式とほぼ同じ値が求まっています。
このデータは、以下の式を使って、作っています。
X1とX2に相関がある中で、X1とX2の差を取ると、X1、X2に共通した特徴以外が抽出されます。
それと、Yが相関しているパターンです。
このデータは、以下の式を使って、作っています。
X1が、YとX2の両方の説明変数になっています。
X1は、統計的因果推論で、「交絡因子」と呼ばれます。
このデータは、以下の式を使って、作っています。
X1とX2は、Zという変数から作られている点が共通していて、疑似相関の関係です。
Yは、X1から作られていて、X2とは無関係です。
YはX1から作られたデータだとしても、X2の方がYと相関が強いのなら、重回帰分析の係数に符号反転が起きます。
普通は、YがX1から作られているのなら、Yと相関が強いのは、X1です。 しかし、X1とX2の相関が強い場合は、X1とX2が似ているので、X2の方が、Yとの相関が強くなっていることがあります。 符号反転が起きたのは、そのような時です。
このデータは、以下の式を使って、作っています。
X1とX2は、Zという変数から作られている点が共通していて、疑似相関の関係です。
Yは、X2から作られていて、X1とは無関係です。
YがX2から作られたデータなこともあり、X2の方がYと相関が高いです。X1に符号反転が起きます。
目的変数と説明変数が、もともと無関係の場合です。
このパターンの場合、単回帰分析でも重回帰分析でも、モデルが合っていないのですが、データだけを見ていると、それがわからないことがあります。
このデータは、以下の式を使って、作っています。
Y、X1、X2には、直線的な関係はないのですが、Zが共通になっているので疑似相関の関係があります。
このデータは、以下の式を使って、作っています。 Z1、Z2という変数があります。 Yは、Z2の一次関数で、X1はZ1の関数なので、YとX1には直接的な関係はないです。
YとX2で単回帰分析をすると、X2に含まれているZ1がノイズになります。
そこで、Z1を持っているX1も加えた重回帰分析にすると、精度が上がります。
このようなX1は、「抑制変数(Suppressor Variable)」と呼ばれます。
なお、Jのパターンのように、説明変数間の相関が弱く、Yは、X2の一次関数の場合でも、符号の反転は起きます。
「X2単独の単回帰分析よりも、X1を加えた重回帰分析の方が相関係数の絶対値が大きい」や、「符号が反転する」ということでは、抑制変数かどうかはわからないです。 X1とX2の相関の強さから推測する必要があります。
世の中の解説では、説明変数間に相関がある場合を、符号反転が起きる例として説明することが多いですが、 説明変数間の相関が弱くても、符号反転は起きます。
HからKは、説明変数間の相関が弱くても、符号反転が起きるケースです。
このデータは、以下の式を使って、作っています。
説明変数間に相関がなく、YはX1とX2の線形和でできているパターンです。
Yは、X1とX2の線形和なのに、片方だけで回帰分析をしている時は、抜け落ちた方が「脱落変数」と呼ばれます。 抜け落ちたことによって起こる誤解は、「脱落変数バイアス」と呼ばれます。
このデータに対して、X1とYによる単回帰分析すると、X2が抜けたことになります。
この場合は、本来はプラスになるはずの符号が、マイナスになっています。
このデータは、以下の式を使って、作っています。
Yは、X1から作られていて、X2とは無関係です。
YはX1から作られたデータだとしても、X2の方がYと相関が強いのなら、重回帰分析の係数に符号反転が起きます。
普通は、YがX1から作られているのなら、Yと相関が強いのは、X1です。 しかし、「YがX1から作られている」となっていても、YとX1の相関が強くない場合は、無関係なX2の方が、Yとの相関が強くなっていることがあります。 符号反転が起きたのは、そのような時です。
説明変数間に相関がなく、YはX2の一次関数でできているパターンです。
このデータは、以下の式を使って、作っています。
このパターンの場合、重回帰分析のモデルは不正解で、YとX2の単回帰分析のモデルが正解になるのですが、
Y予測値とYの相関係数の方が、X2とYの相関係数よりも大きいため、「重回帰分析の方が良い」という間違った判断をしがちです。
これは、過学習の例です。 まったく関係のない変数だとしても、モデルに加わると、Y予測値とYの相関係数は上がるので、相関係数が高くなったことだけでは、モデルの妥当性を判断してはいけないです。
3つの変数が、お互いに無関係の場合です。
このパターンの場合、単回帰分析でも重回帰分析でも、モデルが合っていないのですが、データだけを見ていると、それがわからないことがあります。
順路
次は
符号反転とサンプル数
