区間高次元化回帰分析

区間高次元化回帰分析という名前は、筆者の造語です。同じ方法が世の中にあれば、それに合わせるつもりですが、今のところ、そのような文献が見つからないでいます。

dummy
区間高次元化回帰分析が向いているのは、上のようなデータです。単純な回帰分析は明らかに合わなさそうですが、区間の中では、単純な回帰分析で良さそうな場合です。

区間高次元化回帰分析の手順

dummy
まず、説明変数を１次元クラスタリングで、質的変数にします。

次に、ダミー変換をします。

そして、ダミー変換した変数と元のXの積を作ります。いわゆる交互作用項を作ります。

元のYに、新しく作った変数を加えたデータセットが、区間高次元化回帰分析のデータになります。
dummy

データができれば、後は、普通の重回帰分析です。横軸を元のY、縦軸を予測値のY（Y'）にして散布図にすると、下図になります。ほぼ一直線なので、非常に高い精度のモデルであることがわかります。また、各区間の傾きなども、分析結果からわかります。
dummy dummy

上記の例は、説明変数が１つですが、複数の場合も基本的な作業は同じです。１変数ずつ区間高次元化の変換をして行きます。

説明変数が１つの場合は、区間で区切って、個別に単回帰分析をしても、そんなに手間ではないです。区間高次元化回帰分析が、特に役に立つのは、説明変数が複数の時になります。

区間高次元化回帰分析は、多変量適応的回帰スプライン、モデル木、サポートベクターマシン、数量化Ⅰ類、線形混合モデル、１次元クラスタリングの長所や、その長所を実現するためのアルゴリズムを、かけ合わせて作っています。（これは、この手法を筆者が思い付いた経緯です。世の中に同じ手法があれば、それは違う発想でできているかもしれません。）

区間高次元化回帰分析は、それらの手法と比較するとわかりやすいです。

多変量適応的回帰スプラインやモデル木は、説明変数の空間を分けて、区間ごとに回帰分析をすることで、複雑なデータに単純なモデルの組合せで対応できるようにしています。

この点が、区間高次元化回帰分析も同じです。区間ごとに単純な回帰モデルがわかる点が同じです。

サポートベクターマシンのカーネル法では、低次元問題を高次元問題に変換することで、複雑なデータに単純なモデルで対応できるようにしています。

また、数量化Ⅰ類や線形混合モデルでは、質的変数をダミー変換しますが、これは高次元化です。低次元問題を高次元問題に変換することで、定量的な扱いを可能にしています。

区間高次元化回帰分析も、低次元問題を高次元問題に変換してから扱います。数量化Ⅰ類や線形混合モデルと同じで、高次元化は、ダミー変換で行います。

線形混合モデルでは、質的変数をダミー変換した変数と、他の説明変数の交互作用項を作ります。そうすると、質的変数のカテゴリ毎に傾きの異なるモデルが作れます。

区間高次元化回帰分析も、質的変数をダミー変換して、交互作用項を作る点は同じです。また、これによって、質的変数のカテゴリ毎に傾きの異なるモデルを作る点も同じです。

ただ、その質的変数というのは、量的変数を１次元クラスタリングして質的変数にしたものです。また、その質的変数から作ったダミー変数と、元の量的変数の交互作用項を作ります。この２点は、線形混合モデルと異なります。

上記の例は、元のデータのグラフを見ながら、Xの区間を決めています。 Rによる区間高次元化回帰分析の例では、たまたまデータの区間を３分割したら、きれいな結果になったので、それを掲載しています。

区間高次元化回帰分析では、１次元クラスタリングのやり方で、結果が大きく変わります。

ちなみに、モデル木でも似たような難しさがあるので、区間高次元化回帰分析だけの弱点ではないです。

区間高次元化回帰分析のページの例は、全部EXCELで作っています。

１次元クラスタリングとダミー変換が手作業になりますが、やろうと思えば、EXCELでもできるのが、区間高次元化回帰分析の良いところです。