トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

カテゴリの分解分析

分解分析 の方法としては、 主成分分析因子分析独立成分分析があり、データを新しい変数のグループに変換します。 分解分析 のページに入っていませんが、 コレスポンデンス分析 も、これらと似た方法です。

ところで、 分解分析 のページでは量的変数の方法として、 主成分分析因子分析独立成分分析を使っていますが、 ダミー変換 すると、これらは質的変数の場合にも使えます。 質的変数に変換すると、 カテゴリの類似度の分析 の一種になります。 コレスポンデンス分析 も同様です。

このサイトでは、このような方法を「カテゴリの分解分析」と呼ぶことにしています。

カテゴリの分解分析の特徴

カテゴリの類似度の分析 の分析には、いくつか種類がありますが、「グループ分け」という機能がないです。 「塊ができる」というところから、人が判断する必要があります。

カテゴリの分解分析では、成分を求めるので、それが要約を表すようになっています。

カテゴリの分解分析としてのコレスポンデンス分析

コレスポンデンス分析 の一般的な使い方では、データを新しい変数のグループに変換します。 そして、新しい変数のグループとして作ったデータを、座標データとして扱い、カテゴリの近さを距離の尺度で調べます。

分解分析として使う時は、カテゴリ同士の距離ではなく、ダミー変換した変数との相関を見て行きます。

方法の共通点

ICA
このページでは、上のようなデータを例にしています。 A、B、C、D、Eという5個の変数があります。サンプル数は1000です。 それぞれ、1、2、3、という3個のカテゴリがあります。

このデータについて、ダミー変換して独立成分分析をすると、下のようになります。
ICA ICA

まず、3つのグループがあり、AとB、CとD、Eと分かれています。 また、数字をよく見ると、A1とB1、A2とB2、A3とB3といった組合せは、数字が似ていることもわかります。

このようにして、カテゴリが分類できます。

変数ごとに、ひとつのカテゴリを除いた場合

上のグラフで、Aの数字をよく見ると、A1は10に寄っていて、A2は6に寄っていて、A3は10と6に半々くらいになっています。 このようにして、成分の数はカテゴリの数よりも1つ少なくなり、ひとつのカテゴリは、複数の成分に分散する形になります。

変数ごとにひとつのカテゴリを除いたのが、下のグラフす。ごちゃごちゃした感じが、少し改善します。
ICA

方法の違い

方法には以下のような違いがあります。 結論としては、 独立成分分析 が一番、使い勝手が良いようです。

独立成分分析

独立成分分析では、ひとつのカテゴリを除いて、ひとつのカテゴリに対して、主成分が1つ対応する結果になりやすいです。

コレスポンデンス分析

コレスポンデンス分析は、独立成分分析よりも思ったような結果になりにくいです。 下の例では、AとB、CとDという2つのグループが完全に分離できていないです。
ICA

独立成分分析では、ひとつカテゴリだけは、複数の主成分に分散して対応する形になってごちゃごちゃになるのを避けるために、質的変数ひとつにつき、ひとつのカテゴリを分析から外す対策があります。

コレスポンデンス分析では、この対策をすると、手法が想定しているデータでなくなるため、エラーになります。

主成分分析

主成分分析では、ひとつのカテゴリに対して、主成分が1つ対応するようなカテゴリができにくく、主成分とカテゴリが多対多の関係になります。 コレスポンデンス分析よりも、さらに精度が悪いです。
ICA

そのため、結果の解釈が難しいです。

因子分析

因子分析は、コレスポンデンス分析や主成分分析よりは、精度が良いです。 ただ、Eのカテゴリは2つしかないのに、6個の成分が結び付いています。 独立成分分析と違って、「不要な成分は使わない」という結果になりにくいです。
ICA

また、因子分析では、「質的変数ひとつにつき、ひとつのカテゴリを分析から外す対策」の方法のみです。 外さないと、エラーになります。

ソフト

R

上の例は、 Rによるカテゴリの分解分析 で作りました。



分解分析

量質混合の潜在変数モデル



順路 次は 二値データの寄与率

Tweet データサイエンス教室