トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

重回帰分析

Yが一個で、Xが複数の場合の 回帰分析 は、重回帰分析と言います。

式の形

重回帰分析の一番簡単な式の形は、
Y = A1 * X1 + A2 * X2 + ・・・ + An * Xn + B
です。このような式は、 線形和 といいます。

より良いモデルの作成には、Xの2乗以上の項を入れたり、 異なるX同士の積を入れることもできます。

変数の選択

重回帰分析では、Xが複数のため、Xの扱い方や考え方が必要になって来ます。 この辺りの考え方は、重回帰分析だけではなく、 多変量解析 や、 データマイニング 等、多変量を扱う手法で共通です。

重回帰分析では、すべてのXの項目を使って式を作るよりも、 項目を選んだ方が役に立つ式になることが多いです。 例えば、 因果推論 をする時には、多くても3つ程度までにした方が良いです。 そうしないと、因果関係の考察が困難になります。 筆者の経験の範囲では、3つ以上の変数(現象)が絡んでいる場合は、 そもそも重回帰式で表現する事にも無理があったりします。

統計ソフトによっては、すべてのXの項目を使って式を作る機能しかないものもありますが、 手動や自動でXの項目を選ぶ機能が付いているソフトもあります。

変数の選択の方法の種類については、 変数の選択 のページにまとめてみました。

結果の見方

寄与率

式の当てはまりが悪くても、Xの数が多いほど寄与率の数字が大きくなるという現象が起きるため、 重回帰分析の場合は、寄与率を文字通りの意味で使いにくいです。

この欠点の補正として、調整済み寄与率や、AICと言った尺度が考え出されています。

係数評価

重回帰分析では、係数(偏回帰係数) Ai の大きさで、 その説明変数の影響力を比べたくなります。

しかし、一般的には、係数は単位が異なりますので、 次元解析 の観点からも、不用意にはできません。 比較をするには 標準化 を行っておく必要があります。 統計ソフトによっては、「標準偏回帰係数」も計算されますので、これを使うのでも良いです。

また、係数の比較が純粋に適用できるのは、説明変数同士が無相関(独立)の場合です。 説明変数同士に相関がある場合は、 係数にその影響が含まれていることに注意しなければいけません。

ちなみに、単回帰分析について言えば、

[ 標準化して求めた式の係数 Ai (i=1〜n) ]
= [ 相関係数 Ri (i=1〜n) ]

が成り立っていますので、 相関係数の評価は、傾きの評価と同じになります。




手法の使い分け



順路 次は 多重共線性

Tweet データサイエンス教室