トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

重回帰分析

Yが1個で、Xが複数の場合の 回帰分析 は、重回帰分析と言います。

式の形

重回帰分析の一番簡単な式の形は、
Y = A1 * X1 + A2 * X2 + ・・・ + An * Xn + B
です。このような式は、 線形和 といいます。

より良いモデルの作成には、Xの2乗以上の項を入れたり、 異なるX同士の積を入れることもできます。

回帰式の評価

相関係数

目的変数の実測値(元のデータの値)と、予測値(回帰式から求まる値)の 相関係数(決定係数) で、回帰式の良さを評価できます。 例えば、完璧に予測できる式が作れれば、1になります。

決定係数(寄与率)

相関係数の2乗は、決定係数と呼ばれます。 また、決定係数には寄与率として使える性質があります。

例えば、この値が0.8になったら、「回帰式で、80%予測できる」という言い方ができます。 ちなみに、会議などで、この言い方を使って分析結果を説明すると、重回帰分析を知らない人でも感覚的に理解しやすくなり、 分析結果の後の対策について、同意をしてもらいやすくなります。

なお、式の当てはまりが悪くても、Xの数が多いほど過学習しやすくなり、決定係数の数字が大きくなる現象が起きるため、 単純に大きければ良いと言う尺度ではありません。

この欠点の補正として、調整済み寄与率や、AICと言った尺度が考え出されていて、標準的に出力するソフトもあります。

変数の重要度の分析

重回帰分析では、複数の説明変数を使いますが、すべての変数が同じくらいの重要というケースは、あまりありません。 回帰式の精度に強く影響している変数があれば、まったく影響していない変数もあります。

重要度の違いがわかると、 定量的な仮説の探索 ができるようになりますし、下記の「変数の選択」もできるようになります。

係数評価

重回帰分析では、係数(偏回帰係数) Ai の大きさで、 その説明変数の影響力を比べたくなります。

しかし、一般的には、係数は単位が異なりますので、 次元解析 の観点からも、不用意にはできません。 比較をするには 標準化 を行っておく必要があります。 統計ソフトによっては、標準偏回帰係数も計算されますので、これを使うのでも良いです。

また、係数の比較が純粋に適用できるのは、説明変数同士が無相関(独立)の場合です。 説明変数同士に相関がある場合は、 係数にその影響が含まれていることに注意しなければいけません。

ちなみに、偏回帰係数と、 偏相関係数 は、名前が似ていますが、別物です。

変数毎の分散比、t値、p値

ソフトによっては、変数毎の分散比、t値、p値が表示されることがあり、これらでも変数の重要度が評価できます。

データセットの中の、変数の重要度の分析

係数の評価は、回帰式の中の、変数の重要度の分析をする方法です。

ところで、 定量的な仮説の探索 の目的は、データセットの中の、変数の重要度の分析です。

係数の評価は、両方に対して使えます。 後者だけに使える方法については、 「変数の重要度の分析」のページにまとめました。

変数の選択

重回帰分析では、Xが複数のため、Xの扱い方や考え方が必要になって来ます。 この辺りの考え方は、重回帰分析だけではなく、 多変量解析 や、 データマイニング 等、多変量を扱う手法で共通です。

重回帰分析では、すべてのXの項目を使って式を作るよりも、 項目を選んだ方が役に立つ式になることが多いです。 例えば、 因果推論 をする時には、多くても3つ程度までにした方が良いです。 そうしないと、因果関係の考察が困難になります。 筆者の経験の範囲では、3つ以上の変数(現象)が絡んでいる場合は、 そもそも重回帰式で表現する事にも無理があったりします。

統計ソフトによっては、すべてのXの項目を使って式を作る機能しかないものもありますが、 手動や自動でXの項目を選ぶ機能が付いているソフトもあります。

変数の選択の方法の種類については、 変数の選択 のページにまとめてみました。

変数の選択をしないと、 変数の重要度の過少評価 をしてしまうことがあります。




手法の使い分け



順路 次は 単回帰分析の結果と同じ時と違う時

Tweet データサイエンス教室