杉原データサイエンス事務所のロゴ トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

符号反転の事例集

符号反転 のページでは、符号反転の例のひとつを説明しています。

このページでは、その他の例を説明します。

筆者は、どのようなデータの場合に符号反転が起きるのかを、できるだけ網羅的に調べてみました。 MECEな分析 です。 調べたものを体系的に整理したら、12パターンありました。

12パターンは、重回帰分析をする時に、変数間の持っている関係を分類したものです。 12パターンであるかどうかと、符号反転が起きるかどうかは、無関係です。 そのパターンになれば、必ず符号反転が起きるのではなく、符号反転が起きる条件になっていると起きます。 符号反転が起きる条件は、 符号反転 のページで説明しています。
符号反転


符号反転

説明変数間の相関が強いパターン

世の中の解説では、説明変数間に相関がある場合を、符号反転が起きる例として説明することが多いです。

以下の、@からGは、説明変数間の相関が強い場合を細かく分けています。

@ 説明変数間の相関が強い・YはX1とX2の線形和・X2は二値変数

このデータは、以下の式を使って、作っています。 X2は0と1しかなく、二値になっています。

この例は、シンプソンのパラドックスの一種です。 X1とYのグラフを見ると、6個のサンプル全体では、負の相関になっているのですが、X2の値でグループ分けすると、グループの中では、正の相関になっています。
符号反転

「Y予測値」は、X1とX2の両方を説明変数にした重回帰分析で推定した値です。 YとY予測値が直線的に並ぶと、精度が高いことを意味しています。
符号反転

重回帰分析の係数は、データの生成式とほぼ同じ値が求まっています。
符号反転

A 説明変数間の相関が強い・YはX1とX2の線形和・Yは、X1とX2の差

このデータは、以下の式を使って、作っています。 X1とX2に相関がある中で、X1とX2の差を取ると、X1、X2に共通した特徴以外が抽出されます。 それと、Yが相関しているパターンです。
符号反転


符号反転


符号反転

B 説明変数間の相関が強い・YはX1とX2の線形和・X2がX1の一次関数

このデータは、以下の式を使って、作っています。 X1が、YとX2の両方の説明変数になっています。 X1は、統計的因果推論で、「交絡因子」と呼ばれます。
符号反転


符号反転


符号反転

C 説明変数間の相関が強い・X1とX2は疑似相関・Yは、X1の一次関数

このデータは、以下の式を使って、作っています。 X1とX2は、Zという変数から作られている点が共通していて、疑似相関の関係です。 Yは、X1から作られていて、X2とは無関係です。
符号反転


符号反転

YはX1から作られたデータだとしても、X2の方がYと相関が強いのなら、重回帰分析の係数に符号反転が起きます。
符号反転

普通は、YがX1から作られているのなら、Yと相関が強いのは、X1です。 しかし、X1とX2の相関が強い場合は、X1とX2が似ているので、X2の方が、Yとの相関が強くなっていることがあります。 符号反転が起きたのは、そのような時です。

D 説明変数間の相関が強い・Yは、X2の一次関数

このデータは、以下の式を使って、作っています。 X1とX2は、Zという変数から作られている点が共通していて、疑似相関の関係です。 Yは、X2から作られていて、X1とは無関係です。
符号反転


符号反転

YがX2から作られたデータなこともあり、X2の方がYと相関が高いです。X1に符号反転が起きます。
符号反転

E 説明変数間の相関が強い・Yは、X1、X2とは独立

目的変数と説明変数が、もともと無関係の場合です。

符号反転

このパターンの場合、単回帰分析でも重回帰分析でも、モデルが合っていないのですが、データだけを見ていると、それがわからないことがあります。
符号反転

F 説明変数間の相関が強い・Y、X1、X2が疑似相関

このデータは、以下の式を使って、作っています。 Y、X1、X2には、直線的な関係はないのですが、Zが共通になっているので疑似相関の関係があります。
符号反転


符号反転


符号反転

G 説明変数間の相関が強い・X1は抑制変数

このデータは、以下の式を使って、作っています。 Z1、Z2という変数があります。 Yは、Z2の一次関数で、X1はZ1の関数なので、YとX1には直接的な関係はないです。

YとX2で単回帰分析をすると、X2に含まれているZ1がノイズになります。 そこで、Z1を持っているX1も加えた重回帰分析にすると、精度が上がります。 このようなX1は、「抑制変数(Suppressor Variable)」と呼ばれます。
符号反転


符号反転


符号反転

なお、Jのパターンのように、説明変数間の相関が弱く、Yは、X2の一次関数の場合でも、符号の反転は起きます。

「X2単独の単回帰分析よりも、X1を加えた重回帰分析の方が相関係数の絶対値が大きい」や、「符号が反転する」ということでは、抑制変数かどうかはわからないです。 X1とX2の相関の強さから推測する必要があります。

説明変数間の相関が弱いパターン

世の中の解説では、説明変数間に相関がある場合を、符号反転が起きる例として説明することが多いですが、 説明変数間の相関が弱くても、符号反転は起きます。

HからKは、説明変数間の相関が弱くても、符号反転が起きるケースです。

H 説明変数間の相関が弱い・Yは、X1とX2の線形和

このデータは、以下の式を使って、作っています。 説明変数間に相関がなく、YはX1とX2の線形和でできているパターンです。
符号反転

Yは、X1とX2の線形和なのに、片方だけで回帰分析をしている時は、抜け落ちた方が「脱落変数」と呼ばれます。 抜け落ちたことによって起こる誤解は、「脱落変数バイアス」と呼ばれます。


符号反転

このデータに対して、X1とYによる単回帰分析すると、X2が抜けたことになります。 この場合は、本来はプラスになるはずの符号が、マイナスになっています。
符号反転

I 説明変数間の相関が弱い・Yは、X1の一次関数

このデータは、以下の式を使って、作っています。 Yは、X1から作られていて、X2とは無関係です。
符号反転


符号反転

YはX1から作られたデータだとしても、X2の方がYと相関が強いのなら、重回帰分析の係数に符号反転が起きます。
符号反転

普通は、YがX1から作られているのなら、Yと相関が強いのは、X1です。 しかし、「YがX1から作られている」となっていても、YとX1の相関が強くない場合は、無関係なX2の方が、Yとの相関が強くなっていることがあります。 符号反転が起きたのは、そのような時です。

J 説明変数間の相関が弱い・Yは、X2の一次関数

説明変数間に相関がなく、YはX2の一次関数でできているパターンです。 このデータは、以下の式を使って、作っています。
符号反転


符号反転

このパターンの場合、重回帰分析のモデルは不正解で、YとX2の単回帰分析のモデルが正解になるのですが、 Y予測値とYの相関係数の方が、X2とYの相関係数よりも大きいため、「重回帰分析の方が良い」という間違った判断をしがちです。
符号反転

これは、過学習の例です。 まったく関係のない変数だとしても、モデルに加わると、Y予測値とYの相関係数は上がるので、相関係数が高くなったことだけでは、モデルの妥当性を判断してはいけないです。

K 説明変数間の相関が弱い・Y、X1、X2が独立

3つの変数が、お互いに無関係の場合です。

符号反転

このパターンの場合、単回帰分析でも重回帰分析でも、モデルが合っていないのですが、データだけを見ていると、それがわからないことがあります。
符号反転



順路 次は 符号反転とサンプル数


杉原データサイエンス事務所のロゴ
杉原データサイエンス事務所によるコンサルティングとセミナー