数量化理論は、 定性的な情報を、数量で扱うための理論です。
数量化理論の計算方法は、 多変量解析 と言われている方法が基本になっています。
しかし、 多変量解析 の方法が、基本的に変数の関係を見るために使う方法であるのに対して、 数量化理論の使い道は、 決定木 や 個々のカテゴリの仲間分けの分析 と似ています。 そのため、このサイトでは、数量化理論を データマイニング の枠の中に入れるようにしました。
歴史的には、 アンケート・感性評価 のデータの分析方法として考案された方法から、 テキストマイニング の方法として使われるようになっています。
数量化理論で扱われるデータの種類は、以下の4つに
分かれるようです。
Data1とData2は似ていますが、「Lでなければ、MとNのどちらか」といった論理が必ず入っているかどうかが違います。
Data1の場合は、ダミー変換する前の形に逆変換して質的変数にできますが、Data2の場合はそれができません。
「数量化理論」の解説書は以下のようになっています。
T〜V類は、質的変数や、0と1で「あり」と「なし」が表現されている変数を、量的変数の理論で扱う方法です。
W〜Y類は、 一対評価 で得られたデータから全体像を見るための方法です。
V〜Y類は、スタートになるデータの種類が異なるため、数学的な手続きが異なりますが、アウトプットが各カテゴリの座標データになる点は同じです。
オリジナルの数量化理論では、扱う手法がある程度の範囲に決まって来ます。 このサイトでは、下記の意味に広げて、その観点で書くことにしています。 こうすることで、もともと数量化理論でやりたかったことに対して、最新の理論を使ったアプローチが考えやすくなると思っています。
筆者は初めて数量化理論を知った時、「0と1のデータを扱うこと以外は、後は通常の多変量解析と同じ」という理解をしました。
ところが、この理解をしている内は、数量化理論でできることは限定されます。 数量化理論では、0と1になっているデータを扱うことによって、 どのようなモデルになっているのかを考えていくと、数量化理論ならではの分析の幅が広がりました。
上記のように、質的変数だけの時の数量化理論は、量的変数を対象としていた元の手法とは、わかることが異なる手法になります。
それだけでもデータ分析の世界が広がるのですが、 世の中の実際のデータには、量的変数と質的変数の両方がある時もあります。 両方がある時の進め方は、2種類あります。 これらを使い分けると、データ分析の世界はさらに広がります。
量的変数を質的変数で 層別 して分析する感じになります。
個々のカテゴリの相関分析 で使われている進め方です。
量的変数は質的変数なってから量的変数に戻るのですが、区分データとして扱われています。 また、非線形の特徴も見やすくなります。
「多変量解析法入門」 永田靖・棟近雅彦 共著 サイエンス社 2001
重回帰分析
、
判別分析
、
主成分分析
、
多次元尺度構成法
、
数量化T〜V類 が体系的にまとまっています。
決定木
、
クラスター分析
についても短めにまとめられています。
「多変量解析がわかる」 涌井良幸、涌井貞美 著 技術評論社 2011
数ページずつですが、数量化1から4類と
コレスポンデンス分析
について、計算方法がコンパクトに解説されています。
「数量化 理論と方法」 林知己夫 著 朝倉書店 1993
数量化理論の研究の歴史、T類からY類までの説明。多次元尺度構成法との関係
「数量化法の基礎」 岩坪秀一 著 朝倉書店 1987
数量化1〜4類の計算式が詳しく書かれています。
3次元以上にデータを並べる、n-wayの数量化3類も詳しいです。
「質的データの数量化」 西里静彦 著 朝倉書店 1982
双対尺度法の本です。
双対尺度法というのは、計算方法は違うものの、やろうとしているのは数量化V類や主成分分析と同じで、変数やサンプルの順番を解釈するための、
軸を見つける方法のようです。
順路
次は
広義の数量化T類