トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

回帰分析系で高次元を2次元に圧縮して可視化

高次元を2次元に圧縮して可視化 の方法は、一般的には、教師なし学習の方法として分類されます。

このページのタイトルにある「回帰分析系」というのは、 回帰分析 を代表として、目的変数が量的データになっている教師あり学習の方法のことです。 サポートベクターマシン決定木 で、目的変数が量的データになっている場合も、回帰分析系の仲間です。

回帰分析系の方法は、高次元を2次元に圧縮して可視化 の方法に応用できます。

一般的な圧縮の方法との違い

k-means
高次元を2次元に圧縮して可視化 の一般的な方法は、上図の左です。 何らかの変換をして、3個以上ある変数を2個にします。 2個(2次元)で、多次元の特徴が見れるようにします。 変換の仕方が、各手法の工夫になっています。

回帰分析系の場合は、元々ある変数の中に、Yという、ひとつだけ特別なものあります。 Yについては、何も変換はしないです。 Y以外の変数についてだけ、変換をします。

手順の違い

k-means
Yに相当するような変数があって、 高次元を2次元に圧縮して可視化 の方法を使う場合は、 まず、Y以外の変数について、圧縮してから、圧縮した変数とYの関係を分析する手順になります。

一方、回帰分析系で圧縮する場合は、圧縮と同時に分析ができます。

手法の比較

k-means
手法の比較です。 ここで使ったデータは、サンプルが100個あります。 Yという変数とX01からX10までの変数があります。 Yは、Xの2乗などから計算されています。

ただし、1行目のサンプルのYは、計算式を使っていないで、適当に入れた数(1000)になっています。

一般的な圧縮の場合

k-means
一般的な圧縮の場合として、上はt-SNEを使っています。 この例の他にも、いろいろ試しましたが、何とも言えないような結果にしかなりませんでした。

1行目のサンプルは、集団の中にいます。

回帰分析系による圧縮の場合

k-means
重回帰分析を使って圧縮した場合です。 1行目のサンプルが孤立しています。

散布図の下にあるヒストグラムは、残差で、 残差の外れ値 の分析の見方をしています。 一般的な圧縮の場合は、圧縮した2次元に特に意味がないのですが、回帰分析系の場合は、予測値の方は実測値に似るように計算された値なので、 両方の差にも意味があります。

回帰分析系による圧縮の使い道

高次元を2次元に圧縮して可視化 に限らず、 サンプルの類似度の分析 は、Yに相当する変数がない場合の分析方法です。

「Yに相当する変数がある場合」と「サンプルの類似度の分析」というのは、別々の場所で使われますが、 このページの場合は、一緒になっています。

回帰分析系による圧縮の方法は、Yに相当する変数があるデータについて、サンプルの類似度の分析として使うことが、使い道のひとつになります。

上の例のように、外れ値のようなサンプルを見つける方法にもなります。

残差の外れ値 を見つける方法は、回帰分析系による圧縮の姉妹版のような方法です。 YとY'の差は、残差ですが、残差を分析対象にしています。

ソフト

Excel

Excelでは、回帰分析の予測値を、簡単に分析できます。 このサイトでは、 Excelによる残差の外れ値の分析 のページで、その紹介をしています。

R-EDA1

上図がR-EDA1の使用例になります。 R-EDA1では、元の変数のYが「label」として横軸に、Y'が「predicted」として縦軸になるようにして、2次元の散布図が作られます。

上の場合は、回帰分析ですが、 モデル木サポートベクター回帰 も使えます。
two dimensions analysis by regression analysis

R

Rによる回帰分析系で高次元を2次元に圧縮して可視化 では、 R-EDA1に入れているコードの中心になっているものが入っています。






順路 次は 正準相関分析で高次元を2次元に圧縮

Tweet データサイエンス教室