トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

変数の重要度の過少評価

Y = A1 * X1 + A2 * X2 + A3 * X3 + B
という式で表せるデータがあったとします。

標準偏回帰係数 A1、A2、A3は、0.4、0.4、0.5だったとします。

この場合、「A3の影響が一番大きい」と思いたくなりますが、そうではない事もあります。 それは、 X1とX2に 多重共線性 がある場合です。

例えば、X1とX2の値が、ほぼ同じだった場合、X1とX2の2つの効果があるというより、片方の効果だけを評価した方が良いですが、 両方の効果はA1とA2と分散してしまいます。 このページでは、これを「過少評価」と呼ぶことにします。

標準偏回帰係数 で、変数の重要度の分析をする場合の注意点になります。

変数の選択の実施

変数の選択 の目的には、過少評価が起きないようにすることもあります。

変数のとりまとめ

ほぼ同じ変数があるのなら、まとめておいた方が、分析結果の考察がしやすいです。

主成分回帰分析 は、そのような方法の代表格です。

品質工学の「T法」

普通の重回帰分析だと、ほぼ同じ値の変数があると、エラーになったり、解が不安定になったりするので「ほぼ同じ値の変数がある」 ということに気付きやすいです。 品質工学の「T法」 だと、そういうことがないので、特に注意が必要です。





順路 次は 交互作用の種類

Tweet データサイエンス教室