トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

変数の選択

多変量解析データマイニング機械学習 では、目的変数に関係のない説明変数を解析から除いたり、 多重共線性 の関係のある説明変数を整理するために、説明変数を選ぶ作業があります。

(ソフトによっては、説明変数の選択を、自動でやってくれる機能が付いていることもあります。 一方で、変数の選択には配慮がなく、すべての説明変数を回帰式(予測式)に入れることしかできないソフトもあります。)

変数の選択は、精度の高いモデルを作る方法として解説されていることが多いですが、 定量的な仮説の探索 の方法としても、かなり有効です。 「診断」や「項目診断」と呼ばれる事もあります。

機械学習 では、「変数の選択」のことを「 特徴量選択 」と呼んでいます。

分散比による選択

分散比(F値)が大きな変数を大きい順に選んで行く方法です。 選んでいく時には、トレランスを見て、多重共線性の関係のある変数は含まないようにします。

「分散比が○○以上なら、回帰式に入れる。」、という基準で選んでも良いですが、 あまりたくさん選んでしまうと、後で解析結果と現象のメカニズムの関係を考察する段階になった時に困ってしまいます。 選ぶ変数の数は、考察の内容を想定しながら決めると良いです。

上記は、変数増加法と呼ばれます。 すべての説明変数を選んでから、分散比の小さい順に除去していく方法もあります。 また、変数を増やしたり減らしてから、分散比を再計算すると、 大小関係が変わりますので、その変わり方の様子を見ながら選択することもあります。

実験計画法による選択

変数の選択に 実験計画法 を使う方法は、 品質工学MTシステム の中で紹介されています。

2水準系の直交表は、0と1の2値でできていますが、 この0と1について、「0 = なし(その説明変数はモデル式に入れない)」と「1 = あり(その説明変数はモデル式に入れる)」と考えます。

実験計画法では、条件のいろいろな組み合わせを順に実験して行きますが、 同様に、説明変数を選択した状態のいろいろな組み合わせについて、順番に計算します。

計算してから、要因効果図を描くと、影響の大きな説明変数を見つけることができます。

遺伝的アルゴリズムによる選択

変数が非常に多いと、どこから手を付けたら良いのかわからなくなります。 発見的に変数を選択する方法として、 遺伝的アルゴリズム を使う方法もあります。

スパースモデリングによる選択

変数が非常に多いけれども、機械的に、かつ、シンプルな結論を得るための方法に、 スパースモデリング があります。



順路 次は スパースモデリング

Tweet データサイエンス教室