コレスポンデンス分析は、 分割表 の分析方法として説明されていることが多いです。
ところで、 数量化V類 と数学的に同じものであることが知られていますが、 数量化V類が、分割表の分析方法として説明されることはないです。
また、コレスポンデンス分析は、質的データや計数データを扱う手法として知られていますが、 入力データが同じなら、 量的変数を扱う手法として知られている 主成分分析 と、非常に似た結果になります。
コレスポンデンス分析と主成分分析は、Rを使う時の手間はほとんど同じです。 結果もとても似ています。
まず、
分割表
をデータのスタートにした場合の結果です。
左がコレスポンデンス分析で、右が主成分分析です。
次に、上の分割表の元データをスタートにした場合の結果です。 コレスポンデンス分析は、分割表の分析法として知られていますが、分割表の元データを ダミー変換 したデータを入力データにしても、ほぼ同じ結果になります。
左がコレスポンデンス分析で、右が主成分分析です。
分割表を入力データにした時と、X軸の向き反対になる点も、2つの手法で同じです。
コレスポンデンス分析と主成分分析は、似たような結果が出るので同じように使っても問題のない時もありますが、 問題がある時もあります。
主成分分析の代わりにコレスポンデンス分析を使う場合ですが、 コレスポンデンス分析は、質的データを頻度データとして扱う理論で作られているので、量的データを扱う時に問題が起きます。 主成分分析では、温度と圧力など、単位のまったく異なる変数を一緒にしていても問題なく分析できますが、 これをコレスポンデンス分析で扱おうとすると、単位の異なる値を直接足し合わせる処理が入るため、想定外の使い方になります。
コレスポンデンス分析の代わりに主成分分析を使う場合については、「これは絶対にダメ」というのは、今のところ、筆者にはわかりません。 ただ、計数データに多次元正規分布を仮定するのは、どうかと思いますので、その点が大きく影響する場合は、問題が起きるかもしれません。
コレスポンデンス分析の結果の分析方法として、散布図を使うのが一般的ですが、第1、第2の成分しか見ないことが多いようです。 実際問題として、第3以上の成分も分析しようとすると、グラフが2枚以上になってしまい、意思決定に使いにくい分析になってしまう問題もあります。
ちなみに、この問題は 主成分分析 と同じです。
上記の例で、分割表の元データになっているデータは、質的変数が2つ(2列)のデータになります。
分割表の結果と比べる場合は、質的変数が2つのデータと比べることになりますが、 コレスポンデンス分析では、質的変数が3つ以上でもできます。 この場合は、「多重対応分析」と呼ばれています。
Rの実施例は、 Rによるコレスポンデンス分析 にあります。
「Rによる多変量解析入門 データ分析の実践と理論」 川端一光・岩間徳兼・鈴木雅之 著 オーム社 2018.
「質的変数間の連関を視覚化したい」のツールとして、コレスポンデンス分析が紹介されています。
「すぐわかる 統計処理の選び方」 石村貞夫・石村光資郎 著 東京図書 2010
質的変数が3つ以上ある時のコレスポンデンス分析が、「多重対応分析」として紹介されています。
同志社大学 金明哲先生のページ
Rと対応分析
https://www1.doshisha.ac.jp/~mjin/R/Chap_26/26.html
コレスポンデンス分析の幾何学的意味と導出 北九州市立大学経済学部 齋藤朗宏 氏
カイ二乗距離を使う理由が詳しいです。
https://www.kitakyu-u.ac.jp/economy/study/pdf/2017/2017_04.pdf
順路
次は
多次元同時付置図と3部グラフ