トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

数量化理論

数量化理論は、定性的な情報を、数量で扱うための理論です。

数量化理論の計算方法は、多変量解析と言われている方法が基本になっています。

しかし、多変量解析の方法が、基本的に変数の関係を見るために使う方法であるのに対して、数量化理論の使い道は、決定木やカテゴリの類似度の分析と似ています。そのため、このサイトでは、数量化理論をデータマイニングの枠の中に入れるようにしました。

歴史的には、アンケート・感性評価のデータの分析方法として考案された方法から、テキストマイニングの方法として使われるようになっています。

数量化は２段階

数量化理論の話の中には、「数量化」の作業が２段階になっていて、まったく異なる視点の数量化を２回行います。

質的データを多変量解析の手法で扱うための数量化

１段階目が、質的データを多変量解析の手法で扱うための数量化です。

Ⅰ、Ⅱ、Ⅲ類ではダミー変換をする作業が「数量化」です。 Ⅳ、Ⅴ、Ⅵ類では、感覚的な大きさをアンケートなどを使って、数字にする作業が「数量化」です。

各サンプルや、質的変数のカテゴリの数量化

２段階目が、各サンプルや、質的変数のカテゴリの数量化です。

Ⅰ、Ⅱ、Ⅲ類で使うダミー変換されたデータは、1と0しかない離散データになっている量的変数の集まりですが、これを連続的な数値の量的変数に変換することもでき、これが「数量化」になります。また、ダミー変換する前の質的変数のカテゴリや、Ⅳ、Ⅴ、Ⅵ類で使うデータの行と列のカテゴリは、質的なデータですが、これらに対応する数値を求めることもでき、これも「数量化」になります。

数量化理論の使い道

各サンプルや、質的変数のカテゴリの定量的な分析

もともと数量化理論は、上記の２段階目まで行う手法として開発されて来ています。心理学の分野など、アンケートなどを使って得られたデータから、定量的な分析を進めるための方法になっています。数量化の２段階目まで進めたデータを使います。

２段階目まで進めたデータを、特徴量エンジニアリングをしたデータのように考えて、量的変数の方法で扱うこともできます。質的変数のグループを、１つの連続変数に変換がこれに当たります。

目的変数の分析方法

世の中でも、数量化理論は、質的変数のデータを量的変数の方法で扱うための方法として、理解されることが一般的になって来ているようです。

目的変数と説明変数の関係を調べたり、説明変数から予測モデルを作ったりする使い道で、Ⅰ類、Ⅱ類を使います。

この使い道の場合は、数量化の２段階目の作業は必要なく、１段階目のデータだけで分析をします。また、説明変数には、質的変数と量的変数が混ざっていることもあります。広義の数量化Ⅰ類と広義の数量化Ⅱ類がこれに当たります。

数量化理論で扱われるデータの種類

数量化理論で扱われるデータの種類は、以下の４つに分かれるようです。
数量化のデータ

Data1 : 質的変数をダミー変換したデータ
Data2 : 「当てはまる」と「当てはまらない」の２択のデータ
Data3 : A-A型のデータ
Data4 : A-B型のデータ

Data1とData2は似ていますが、「Lでなければ、MとNのどちらか」といった論理が必ず入っているかどうかが違います。

Data1の場合は、ダミー変換する前の形に逆変換して質的変数にできますが、Data2の場合はそれができません。

数量化理論の分類

数量化理論のオリジナル

「数量化理論」の解説書は以下のようになっています。

数量化Ⅰ類 : 重回帰分析で、説明変数がData1の形のもの
数量化Ⅱ類 : 判別分析で、説明変数がData1の形のもの
数量化Ⅲ類 : Data2に対して、主成分分析に近いアプローチをするもの
数量化Ⅳ類 : Data3の形の類似度データ。多次元尺度構成法の一種で分析
数量化Ⅴ類 : Data3の形の非類似度データ。多次元尺度構成法の一種で分析
数量化Ⅵ類 : Data3の形の一対比較の有向データ。A > B、B > Cでも、A > Cとならずに、C > Aとなっている時に、それは評価の次元が違うためと考える。

Ⅰ～Ⅲ類は、質的変数や、０と１で「あり」と「なし」が表現されている変数を、量的変数の理論で扱う方法です。

Ⅳ～Ⅵ類は、一対評価で得られたデータから全体像を見るための方法です。

Ⅲ～Ⅵ類は、スタートになるデータの種類が異なるため、数学的な手続きが異なりますが、アウトプットが各カテゴリの座標データになる点は同じです。

広義の数量化理論

オリジナルの数量化理論では、扱う手法がある程度の範囲に決まって来ます。このサイトでは、下記の意味に広げて、その観点で書くことにしています。こうすることで、もともと数量化理論でやりたかったことに対して、最新の理論を使ったアプローチが考えやすくなると思っています。

広義の数量化Ⅰ類 : 目的変数が量的変数で、説明変数がData1やData2の形のもの
広義の数量化Ⅱ類 : 目的変数が質的変数で、説明変数がData1やData2の形のもの
広義の数量化Ⅲ類 : 目的変数なし。カテゴリの座標データを求める方法。Data1、Data2、Data4の形のもの

数量化理論ならではの話がある

筆者は初めて数量化理論を知った時、「0と1のデータを扱うこと以外は、後は通常の多変量解析と同じ」という理解をしました。

ところが、この理解をしている内は、数量化理論でできることは限定されます。数量化理論では、0と1になっているデータを扱うことによって、どのようなモデルになっているのかを考えていくと、数量化理論ならではの分析の幅が広がりました。

量的変数と質的変数の両方がある時の数量化

上記のように、質的変数だけの時の数量化理論は、量的変数を対象としていた元の手法とは、わかることが異なる手法になります。

それだけでもデータ分析の世界が広がるのですが、世の中の実際のデータには、量的変数と質的変数の両方がある時もあります。両方がある時の進め方は、２種類あります。これらを使い分けると、データ分析の世界はさらに広がります。

質的変数をダミー変換して、量的変数と混ぜる

数量化Ⅰ類や線形混合モデルで使われている進め方です。

量的変数を質的変数で層別して分析する感じになります。

量的変数を質的変数に変換してから、すべての変数をダミー変換

個々のカテゴリの相関分析や区間高次元化回帰分析で使われている進め方です。

量的変数は質的変数になってから量的変数に戻るのですが、区分データとして扱われています。非線形の特徴が見やすくなります。

参考文献

「多変量解析法入門」永田靖・棟近雅彦共著サイエンス社　2001
重回帰分析、判別分析、主成分分析、多次元尺度構成法、数量化Ⅰ～Ⅲ類が体系的にまとまっています。決定木、クラスター分析についても短めにまとめられています。

「多変量解析がわかる」涌井良幸、涌井貞美　著　技術評論社　2011
数ページずつですが、数量化１から４類とコレスポンデンス分析について、計算方法がコンパクトに解説されています。各手法が何をどうやって数量化するのかが、わかりやすいです。
Ⅰ類：量的データを基準に質的データを数量化
Ⅱ類：質的データを基準に質的データを数量化
Ⅲ類：クロス集計表の表側と表頭のカテゴリーを数量化
Ⅳ類：互いの親近性から関係を数量化
コレスポンデンス分析：数量化Ⅲ類の拡張。クロス集計表で各セルに２以上の数字が入っている場合の方法

「数量化　理論と方法」林知己夫　著　朝倉書店　1993
数量化理論の研究の歴史、Ⅰ類からⅥ類までの説明。多次元尺度構成法との関係

「数量化法の基礎」岩坪秀一　著　朝倉書店　1987
数量化１～４類の計算式が詳しく書かれています。３次元以上にデータを並べる、n-wayの数量化３類も詳しいです。

「質的データの数量化」西里静彦　著　朝倉書店　1982
双対尺度法の本です。双対尺度法というのは、計算方法は違うものの、やろうとしているのは数量化Ⅲ類や主成分分析と同じで、変数やサンプルの順番を解釈するための、軸を見つける方法のようです。

順路次は広義の数量化Ⅰ類

杉原データサイエンス事務所によるコンサルティングとセミナー