トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

符号反転の事例集

符号反転のページでは、符号反転の例のひとつを説明しています。

このページでは、その他の例を説明します。

筆者は、どのようなデータの場合に符号反転が起きるのかを、できるだけ網羅的に調べてみました。 MECEな分析です。調べたものを体系的に整理したら、12パターンありました。

12パターンは、重回帰分析をする時に、変数間の持っている関係を分類したものです。 12パターンであるかどうかと、符号反転が起きるかどうかは、無関係です。そのパターンになれば、必ず符号反転が起きるのではなく、符号反転が起きる条件になっていると起きます。符号反転が起きる条件は、符号反転のページで説明しています。

符号反転

説明変数間の相関が強いパターン

世の中の解説では、説明変数間に相関がある場合を、符号反転が起きる例として説明することが多いです。

以下の、①から⑧は、説明変数間の相関が強い場合を細かく分けています。

①　説明変数間の相関が強い・YはX1とX2の線形和・X2は二値変数

このデータは、以下の式を使って、作っています。 X2は０と１しかなく、二値になっています。

この例は、シンプソンのパラドックスの一種です。 X1とYのグラフを見ると、６個のサンプル全体では、負の相関になっているのですが、X2の値でグループ分けすると、グループの中では、正の相関になっています。
符号反転

「Y予測値」は、X1とX2の両方を説明変数にした重回帰分析で推定した値です。 YとY予測値が直線的に並ぶと、精度が高いことを意味しています。
符号反転

重回帰分析の係数は、データの生成式とほぼ同じ値が求まっています。
符号反転

②　説明変数間の相関が強い・YはX1とX2の線形和・Yは、X1とX2の差

このデータは、以下の式を使って、作っています。 X1とX2に相関がある中で、X1とX2の差を取ると、X1、X2に共通した特徴以外が抽出されます。それと、Yが相関しているパターンです。
符号反転

符号反転

③　説明変数間の相関が強い・YはX1とX2の線形和・X2がX1の一次関数

このデータは、以下の式を使って、作っています。 X1が、YとX2の両方の説明変数になっています。 X1は、統計的因果推論で、「交絡因子」と呼ばれます。
符号反転

符号反転

④　説明変数間の相関が強い・X1とX2は疑似相関・Yは、X1の一次関数

このデータは、以下の式を使って、作っています。 X1とX2は、Zという変数から作られている点が共通していて、疑似相関の関係です。 Yは、X1から作られていて、X2とは無関係です。
符号反転

符号反転

YはX1から作られたデータだとしても、X2の方がYと相関が強いのなら、重回帰分析の係数に符号反転が起きます。

普通は、YがX1から作られているのなら、Yと相関が強いのは、X1です。しかし、X1とX2の相関が強い場合は、X1とX2が似ているので、X2の方が、Yとの相関が強くなっていることがあります。符号反転が起きたのは、そのような時です。

⑤　説明変数間の相関が強い・Yは、X2の一次関数

このデータは、以下の式を使って、作っています。 X1とX2は、Zという変数から作られている点が共通していて、疑似相関の関係です。 Yは、X2から作られていて、X1とは無関係です。
符号反転

符号反転

YがX2から作られたデータなこともあり、X2の方がYと相関が高いです。X1に符号反転が起きます。

⑥　説明変数間の相関が強い・Yは、X1、X2とは独立

目的変数と説明変数が、もともと無関係の場合です。

符号反転

このパターンの場合、単回帰分析でも重回帰分析でも、モデルが合っていないのですが、データだけを見ていると、それがわからないことがあります。
符号反転

⑦　説明変数間の相関が強い・Y、X1、X2が疑似相関

このデータは、以下の式を使って、作っています。 Y、X1、X2には、直線的な関係はないのですが、Zが共通になっているので疑似相関の関係があります。
符号反転

符号反転

⑧　説明変数間の相関が強い・X1は抑制変数

このデータは、以下の式を使って、作っています。 Z1、Z2という変数があります。 Yは、Z2の一次関数で、X1はZ1の関数なので、YとX1には直接的な関係はないです。

YとX2で単回帰分析をすると、X2に含まれているZ1がノイズになります。そこで、Z1を持っているX1も加えた重回帰分析にすると、精度が上がります。このようなX1は、「抑制変数（Suppressor Variable）」と呼ばれます。
符号反転

符号反転

なお、⑪のパターンのように、説明変数間の相関が弱く、Yは、X2の一次関数の場合でも、符号の反転は起きます。

「X2単独の単回帰分析よりも、X1を加えた重回帰分析の方が相関係数の絶対値が大きい」や、「符号が反転する」ということでは、抑制変数かどうかはわからないです。 X1とX2の相関の強さから推測する必要があります。

説明変数間の相関が弱いパターン

世の中の解説では、説明変数間に相関がある場合を、符号反転が起きる例として説明することが多いですが、説明変数間の相関が弱くても、符号反転は起きます。

⑨から⑫は、説明変数間の相関が弱くても、符号反転が起きるケースです。

⑨　説明変数間の相関が弱い・Yは、X1とX2の線形和

このデータは、以下の式を使って、作っています。説明変数間に相関がなく、YはX1とX2の線形和でできているパターンです。
符号反転

Yは、X1とX2の線形和なのに、片方だけで回帰分析をしている時は、抜け落ちた方が「脱落変数」と呼ばれます。抜け落ちたことによって起こる誤解は、「脱落変数バイアス」と呼ばれます。

符号反転

このデータに対して、X1とYによる単回帰分析すると、X2が抜けたことになります。この場合は、本来はプラスになるはずの符号が、マイナスになっています。
符号反転

⑩　説明変数間の相関が弱い・Yは、X1の一次関数

このデータは、以下の式を使って、作っています。 Yは、X1から作られていて、X2とは無関係です。
符号反転

符号反転

YはX1から作られたデータだとしても、X2の方がYと相関が強いのなら、重回帰分析の係数に符号反転が起きます。

普通は、YがX1から作られているのなら、Yと相関が強いのは、X1です。しかし、「YがX1から作られている」となっていても、YとX1の相関が強くない場合は、無関係なX2の方が、Yとの相関が強くなっていることがあります。符号反転が起きたのは、そのような時です。

⑪　説明変数間の相関が弱い・Yは、X2の一次関数

説明変数間に相関がなく、YはX2の一次関数でできているパターンです。このデータは、以下の式を使って、作っています。
符号反転

符号反転

このパターンの場合、重回帰分析のモデルは不正解で、YとX2の単回帰分析のモデルが正解になるのですが、 Y予測値とYの相関係数の方が、X2とYの相関係数よりも大きいため、「重回帰分析の方が良い」という間違った判断をしがちです。
符号反転

これは、過学習の例です。まったく関係のない変数だとしても、モデルに加わると、Y予測値とYの相関係数は上がるので、相関係数が高くなったことだけでは、モデルの妥当性を判断してはいけないです。

⑫　説明変数間の相関が弱い・Y、X1、X2が独立

３つの変数が、お互いに無関係の場合です。

符号反転

順路次は符号反転とサンプル数

杉原データサイエンス事務所によるコンサルティングとセミナー

トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

符号反転の事例集

説明変数間の相関が強いパターン

① 説明変数間の相関が強い・YはX1とX2の線形和・X2は二値変数

② 説明変数間の相関が強い・YはX1とX2の線形和・Yは、X1とX2の差

③ 説明変数間の相関が強い・YはX1とX2の線形和・X2がX1の一次関数

④ 説明変数間の相関が強い・X1とX2は疑似相関・Yは、X1の一次関数

⑤ 説明変数間の相関が強い・Yは、X2の一次関数

⑥ 説明変数間の相関が強い・Yは、X1、X2とは独立

⑦ 説明変数間の相関が強い・Y、X1、X2が疑似相関

⑧ 説明変数間の相関が強い・X1は抑制変数

説明変数間の相関が弱いパターン

⑨ 説明変数間の相関が弱い・Yは、X1とX2の線形和

⑩ 説明変数間の相関が弱い・Yは、X1の一次関数

⑪ 説明変数間の相関が弱い・Yは、X2の一次関数

⑫ 説明変数間の相関が弱い・Y、X1、X2が独立

①　説明変数間の相関が強い・YはX1とX2の線形和・X2は二値変数

②　説明変数間の相関が強い・YはX1とX2の線形和・Yは、X1とX2の差

③　説明変数間の相関が強い・YはX1とX2の線形和・X2がX1の一次関数

④　説明変数間の相関が強い・X1とX2は疑似相関・Yは、X1の一次関数

⑤　説明変数間の相関が強い・Yは、X2の一次関数

⑥　説明変数間の相関が強い・Yは、X1、X2とは独立

⑦　説明変数間の相関が強い・Y、X1、X2が疑似相関

⑧　説明変数間の相関が強い・X1は抑制変数

⑨　説明変数間の相関が弱い・Yは、X1とX2の線形和

⑩　説明変数間の相関が弱い・Yは、X1の一次関数

⑪　説明変数間の相関が弱い・Yは、X2の一次関数

⑫　説明変数間の相関が弱い・Y、X1、X2が独立