トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

コレスポンデンス分析(対応分析)

コレスポンデンス分析は、 分割表 の分析方法として説明されていることが多いです。

ところで、 数量化V類 と数学的に同じものであることが知られていますが、 数量化V類が、分割表の分析方法として説明されることはないです。

また、コレスポンデンス分析は、質的データや計数データを扱う手法として知られていますが、 入力データが同じなら、 量的変数を扱う手法として知られている 主成分分析 と、非常に似た結果になります。

コレスポンデンス分析と主成分分析の比較

コレスポンデンス分析と主成分分析は、Rを使う時の手間はほとんど同じです。 結果もとても似ています。

分割表のデータの分析

まず、 分割表 をデータのスタートにした場合の結果です。 左がコレスポンデンス分析で、右が主成分分析です。
Data QM PCA

質的変数のデータの分析

次に、上の分割表の元データをスタートにした場合の結果です。 コレスポンデンス分析は、分割表の分析法として知られていますが、分割表の元データを ダミー変換 したデータを入力データにしても、ほぼ同じ結果になります。

左がコレスポンデンス分析で、右が主成分分析です。 分割表を入力データにした時と、X軸の向き反対になる点も、2つの手法で同じです。
Data QM PCA

コレスポンデンス分析と主成分分析の使い分け

コレスポンデンス分析と主成分分析は、似たような結果が出るので同じように使っても問題のない時もありますが、 問題がある時もあります。

主成分分析の代わりにコレスポンデンス分析を使う場合ですが、 コレスポンデンス分析は、質的データを頻度データとして扱う理論で作られているので、量的データを扱う時に問題が起きます。 主成分分析では、温度と圧力など、単位のまったく異なる変数を一緒にしていても問題なく分析できますが、 これをコレスポンデンス分析で扱おうとすると、単位の異なる値を直接足し合わせる処理が入るため、想定外の使い方になります。

コレスポンデンス分析の代わりに主成分分析を使う場合については、「これは絶対にダメ」というのは、今のところ、筆者にはわかりません。 ただ、計数データに多次元正規分布を仮定するのは、どうかと思いますので、その点が大きく影響する場合は、問題が起きるかもしれません。 質的変数のグループを、1つの連続変数に変換 の方法として使う時は、コレスポンデンス分析の方が良いようです。

コレスポンデンス分析と主成分分析のアルゴリズムの違い

コレスポンデンス分析では、ひとつの変数群が ダミー変換 で複数の変数に分かれても、 グループが3つ以上の 正準相関分析 と似たアプローチになっているので、元の変数ごとのグループとして扱われます。

主成分分析の場合は、ひとつの変数がダミー変換されて複数の変数に分かれると、元の変数が何であったのかは関係なく、 変換後の変数は同じように処理されます。

散布図で分析することによる弱点

コレスポンデンス分析の結果の分析方法として、散布図を使うのが一般的ですが、第1、第2の成分しか見ないことが多いようです。 実際問題として、第3以上の成分も分析しようとすると、グラフが2枚以上になってしまい、意思決定に使いにくい分析になってしまう問題もあります。

ちなみに、この問題は 主成分分析 と同じです。

多重対応分析

上記の例で、分割表の元データになっているデータは、質的変数が2つ(2列)のデータになります。

分割表の結果と比べる場合は、質的変数が2つのデータと比べることになりますが、 コレスポンデンス分析では、質的変数が3つ以上でもできます。 この場合は、「多重対応分析」と呼ばれています。

ソフト

Rの実施例は、 Rによるコレスポンデンス分析 にあります。



参考文献

計算方法も書かれている文献

世の中のコレスポンデンス分析の解説は、入力と出力の話が中心で、実際にどのような計算が解説されていないものが、とても多いのですが、 以下の文献には書かれていました。


多変量解析がわかる」 涌井良幸・涌井貞美 著 技術評論社 2011
一番基本的な計算について、具体的な手順が書かれています。


多変量データ解析法 理論と応用」 柳井晴夫 著 朝倉書店 1994
数式を使った説明が詳しいです。
コレスポンデンス分析と正準相関分析の関係についても書かれています。


コレスポンデンス分析の幾何学的意味と導出 北九州市立大学経済学部 齋藤朗宏 著 2017https://www.kitakyu-u.ac.jp/economy/uploads/2017_04.pdf
カイ二乗距離を使う理由が詳しいです。 https://www.kitakyu-u.ac.jp/economy/uploads/2017_04.pdf


コレスポンデンス分析の意味が書かれている文献

Rによる多変量解析入門  データ分析の実践と理論」  川端一光・岩間徳兼・鈴木雅之 著 オーム社 2018
「質的変数間の連関を視覚化したい」のツールとして、コレスポンデンス分析が紹介されています。


すぐわかる 統計処理の選び方」 石村貞夫・石村光資郎 著 東京図書 2010
質的変数が3つ以上ある時のコレスポンデンス分析が、「多重対応分析」として紹介されています。


同志社大学 金明哲先生のページ
Rと対応分析 https://www1.doshisha.ac.jp/~mjin/R/Chap_26/26.html


順路 次は 多次元同時付置図と3部グラフ

Tweet データサイエンス教室