回帰分析系で高次元を２次元に圧縮して可視化

高次元を２次元に圧縮して可視化の方法は、一般的には、教師なし学習の方法として分類されます。

このページのタイトルにある「回帰分析系」というのは、回帰分析を代表として、目的変数が量的データになっている教師あり学習の方法のことです。サポートベクターマシンや決定木で、目的変数が量的データになっている場合も、回帰分析系の仲間です。

回帰分析系の方法は、高次元を２次元に圧縮して可視化の方法に応用できます。

一般的な圧縮の方法との違い

k-means
高次元を２次元に圧縮して可視化の一般的な方法は、上図の左です。何らかの変換をして、３個以上ある変数を２個にします。２個（２次元）で、多次元の特徴が見れるようにします。変換の仕方が、各手法の工夫になっています。

回帰分析系の場合は、元々ある変数の中に、Yという、ひとつだけ特別なものあります。 Yについては、何も変換はしないです。 Y以外の変数についてだけ、変換をします。

k-means
Yに相当するような変数があって、高次元を２次元に圧縮して可視化の方法を使う場合は、まず、Y以外の変数について、圧縮してから、圧縮した変数とYの関係を分析する手順になります。

一方、回帰分析系で圧縮する場合は、圧縮と同時に分析ができます。

k-means
手法の比較です。ここで使ったデータは、サンプルが100個あります。 Yという変数とX01からX10までの変数があります。 Yは、Xの２乗などから計算されています。

ただし、１行目のサンプルのYは、計算式を使っていないで、適当に入れた数（1000）になっています。

k-means
一般的な圧縮の場合として、上はt-SNEを使っています。この例の他にも、いろいろ試しましたが、何とも言えないような結果にしかなりませんでした。

１行目のサンプルは、集団の中にいます。

k-means
重回帰分析を使って圧縮した場合です。１行目のサンプルが孤立しています。

散布図の下にあるヒストグラムは、残差で、残差の外れ値の分析の見方をしています。一般的な圧縮の場合は、圧縮した２次元に特に意味がないのですが、回帰分析系の場合は、予測値の方は実測値に似るように計算された値なので、両方の差にも意味があります。

高次元を２次元に圧縮して可視化に限らず、サンプルの類似度の分析は、Yに相当する変数がない場合の分析方法です。

「Yに相当する変数がある場合」と「サンプルの類似度の分析」というのは、別々の場所で使われますが、このページの場合は、一緒になっています。

回帰分析系による圧縮の方法は、Yに相当する変数があるデータについて、サンプルの類似度の分析として使うことが、使い道のひとつになります。

上の例のように、外れ値のようなサンプルを見つける方法にもなります。

残差の外れ値を見つける方法は、回帰分析系による圧縮の姉妹版のような方法です。 YとY'の差は、残差ですが、残差を分析対象にしています。

Excelでは、回帰分析の予測値を、簡単に分析できます。このサイトでは、 Excelによる残差の外れ値の分析のページで、その紹介をしています。

上図がR-EDA1の使用例になります。 R-EDA1では、元の変数のYが「label」として横軸に、Y'が「predicted」として縦軸になるようにして、２次元の散布図が作られます。

上の場合は、回帰分析ですが、モデル木やサポートベクター回帰も使えます。
two dimensions analysis by regression analysis

Rによる回帰分析系で高次元を２次元に圧縮して可視化では、 R-EDA1に入れているコードの中心になっているものが入っています。