トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

足し算モデルと割り算モデル

現実と統計モデルとのギャップ回帰分析 のページにも書きましたが、重回帰分析がうまく行かないことは、多々あります。 このページは、ちょっと工夫すれば、うまく行く例です。

Y、X1、X2という3つの変数があって、 2つずつの組み合わせの関係は、図のようになっていたとします。 Yは結果を表していて、X1とX2は原因と考えているとします。

図は、「YとX1は少し比例関係があるかも」、「YとX2は反比例のような感じ」、「X1とX2は無相関」、と言ったように見えます。
Y = X1/X2 Y = X1/X2 Y = X1/X2

足し算モデル

原因になっていると考えられる変数が複数あって、結果の変数がある時は、 多変量解析 を勉強した事があると、 「まず、 重回帰分析 をしてみよう。」 、という風に進む事が多いと思います。

重回帰分析では、
Y = a1 * X1 + a2 * X2 + b
という式(モデル)で変数の関係を表現します。 このページでは、このようなモデルを「足し算モデル」と呼んでいます。

足し算モデルの場合、Yとモデルで推定した値の関係は、下図のようになります。 ななめ45度の一直線上に点が並ぶと、モデルが完璧という意味になるのですが、一直線にはなっていません。
Y = X1/X2

割り算モデル

「YとX2は反比例のような感じ」という点に着目して、
X1 / X2
という数字を計算することにします。

足し算モデルの時と同じように、X1 / X2 と Y の関係を散布図で表すと、下図のようになります。 こうすると、ほぼ一直線になりました。

(実のところ、このページのデータは X1 / X2 を計算して、それを少しばらつかせてYを作っているので、 このページのデータについては、 X1 / X2 が正解です。)
Y = X1/X2

割り算で作られた数字

会計の分析環境影響の尺度自然環境 の理論などなど、様々な分野で、2つの種類の数字(変数)の割り算で作られた数字は、よく使われます。 「○○指数」などと呼ばれることもあります。

割り算でできている数字について、 因果関係の分析 をしようとすると、このページのような事が起きます。

割り算モデルを思い付くには

「答えがわかっていたから割り算モデルが出て来たが、わかっていなかったら、割り算モデルを思い付くのは難しいのではないか?」、 という疑問があるかもしれません。

確かにそうだと思います。

ただ、 X1とX2の単位が違う時には、足し算モデルは 次元解析 の観点で見ると、不自然なモデルです。 Yの次元(単位)にもよりますが、こういう時には、X1 / X2 の方が、真実に近いことはあり得ます。

その他のモデル

「YとX2は反比例のような感じ」という点に着目するのなら、
Y = a1 * X1 + a2 / X2 + b
という式(モデル)での表現も考えられます。

このモデルとYの関係を散布図で表すと、下図のようになります。 割り算モデルほどではないですが、最初の足し算モデルよりは、かなり改善しました。
Y = X1/X2

重回帰分析のロバスト性

このページの例では、「割り算モデルが正解」になりますが、 「推定値は、だいたい合っていれば良い」、という程度が分析目的でしたら、どのモデルでも大差ありません。 因果関係の分析 をするにしても、足し算モデルの結果は参考になります。

こうしたことから、重回帰分析は ロバストな解析 と言えます。

負の値が混ざると

上記は、 「X1が大きいほど、Yが大きくなる。 また、X2が大きいほど、Yが小さくなる。」という関係を表す時に、 足し算モデルと割り算モデルがだいたい同じ結果になる話でした。

両方のモデルが同じになるのは、X1とX2の数字が正の値(プラスの数字)の時です。 負の値(マイナスの数字)が入っていると、同じ結果にならなくなります。

正の値しかないデータを、何かの規則で、正と負の両方がに分かれるように変換したり、 逆に、正と負の両方が混ざっているデータを、正だけになるように変換する事と、 足し算モデルや割り算モデルの性質を、うまく組み合わせる事で、分析の見通しを良くする手が考えられます。 (筆者自身は、まだ試した事がありませんが)



このページのデータは、 サンプルファイル で作りました。

順路 次は 確率論モデルと決定論モデル

Tweet データサイエンス教室