杉原データサイエンス事務所のロゴ トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

説明変数が2つのモデルの推定

変数の選択 のページは、変数が多い場合の進め方です。

実務的な 重回帰分析 では、重要な説明変数は1個のことが一番多く、次が2個の場合です。 3個以上が問題になるようなことは、あまりありません。 あったとしても、考察が難しかったり、データの質と量が不十分なので、分析できないことが多いです。

そうすると、「重要な説明変数は1個か?2個か?」、「2個だとすれば、それらと目的変数は、どういう関係なのか?」といったところが、注目するポイントになります。

このページは、説明変数が2個の場合について、モデルの推定の仕方を説明します。

モデル推定のガイド

符号反転の事例集 のページでは、説明変数が2個の重回帰分析について、パターンを12通りに分けています。 下の表は、それらのパターンのどれになるのかを、データから推定するためのガイドです。
説明変数が2つのモデルの推定

相関を「強・弱」という表現をしています。 目安としては、0.7で良いですが、絶対的な条件ではないです。 実際のデータの様子をグラフで確認して、総合的に判断する必要があります。

モデル推定の実施例

以下は、実際のデータに対して、上記のガイドに従って、モデルを推定した例です。

データを作ってから、それに対してガイドを当てはめる手順です。

なお、この例は、誤差eが小さめなので、ガイドの通りに進むと、正解に行き着けます。 現実のデータでは、誤差がもっと大きいことがありますが、その場合は、単純にガイドの通りにはならないです。

@ シンプソンのパラドックスの例

シンプソンのパラドックスに当てはまるデータの場合は、ガイドというより、グラフを見ると判断できます。
説明変数が2つのモデルの推定

B、C、D、Fの例

B、C、D、Fは、3変数間の相関がすべて強く、シンプソンのパラドックスでもない点が共通しています。
説明変数が2つのモデルの推定 説明変数が2つのモデルの推定 説明変数が2つのモデルの推定 説明変数が2つのモデルの推定

相関係数の大きさから、「X1とYに関係があり、X1とX2は疑似相関なのだろう」といった推測はできますが、データだけから、これらの4つのパターンを区別することはできないです。

筆者の経験の範囲では、3変数の相関がすべて強い場合は、3変数が疑似相関の関係になっていることが多いです。

H 脱落変数の例

この例では、2つの変数を両方入れると、寄与率が大幅に増加します。 単回帰分析では、相関があるように見えにくいです。
説明変数が2つのモデルの推定

J 単回帰式が正解になる例

単回帰式が正解になる例です。
説明変数が2つのモデルの推定

2つの変数の両方を使った方が、寄与率は高いですが、 この程度の違いでは、「1つだけの方が正解」と考えるのがポイントです。

G 抑制変数の例

抑制変数の例です。 X1とX2の相関係数、X1の偏回帰係数、X2の偏回帰係数の3つについて、それらの積の符号の確認がポイントです。
説明変数が2つのモデルの推定

Gと、この次のJでは、このガイドだけでは、区別ができないことがあります。 実際のデータの背景も、考察に加える必要があります。

J 説明変数の差分になっている例

説明変数の差分が、重要な意味を持っている場合です。 X1とX2の相関係数、X1の偏回帰係数、X2の偏回帰係数の3つについて、それらの積の符号の確認がポイントです。
説明変数が2つのモデルの推定

モデルの推定に使えない情報

モデルの推定で誤解しやすいのは、決定係数と、検定、符号反転の使い方です。

寄与率(決定係数)の誤用

寄与率 (決定係数)は、モデルの当てはまりの良さを表します。

寄与率には、目的変数にまったく関係のない変数だとしても、モデルに加えると、少し増加する性質があります。 そのため、少し増加する程度では、「この変数を入れた方が良い」となりません。 「少し」というのは、「0.05(5%)以下」が目安です。

上の表では「寄与率が大きく増加するか?」としています。 「大きく」というのは、「0.2(20%)以上」が目安です。

寄与率の増加量の目安については、 無関係な変数による寄与率の増加量 で詳しく説明しています。

検定の誤用

検定 は、2つのグループの比較が有名ですが、重回帰分析の係数向けのものもあります。 重回帰分析ができるソフトウェアでは、各変数について、p値が出力されるようになっていることが多いです。

「p値が○○以下だから、この変数はモデルに入れた方が良い」という判断をしている文献が、今も多いですが、この進め方は間違いです。 p値にはサンプル数が多いだけで小さくなる性質があるため、p値の結果だけでは、確認が不足しています。

符号反転の誤用

符号反転 のページがそうですが、一般的に「符号反転」と言えば、同じ変数について、単回帰分析と重回帰分析で、符号が反対になっていることを指します。 何か特別な性質のある変数のように解釈されることがあります。

しかし、 符号反転とサンプル数 のページにあるように、符号反転は、変数の選び方によっては、確率が0.5で起きるような現象です。 そのため、「符号反転」という事実に軸足を置いて、考察を進めても、実利のある考察に進まないです。

上の表の中に、同じ変数についての符号反転が入っていないのは、 符号反転とサンプル数 の結果を受けています。


上の表で、「X1とX2の符号反転」と書いているところは、具体的な確認事項は、「X1とX2の相関係数、X1の偏回帰係数、X2の偏回帰係数の積の符号がマイナスか?」です。 @、B、G、Aの時は、符号が決まって来るので、確認のポイントとして使えます。

ソフトウェア

上記の実施例は、Excelで作っています。 そのファイルは、リンク先にあります。



順路 次は スパースモデリング


杉原データサイエンス事務所のロゴ
杉原データサイエンス事務所によるコンサルティングとセミナー