トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

数量化理論

数量化理論は、 定性的な情報を、数量で扱うための理論です。

数量化理論の計算方法は、 多変量解析 と言われている方法が基本になっています。

しかし、 多変量解析 の方法が、基本的に変数の関係を見るために使う方法であるのに対して、 数量化理論の使い道は、 決定木カテゴリの類似度の分析 と似ています。 そのため、このサイトでは、数量化理論を データマイニング の枠の中に入れるようにしました。

歴史的には、 アンケート・感性評価 のデータの分析方法として考案された方法から、 テキストマイニング の方法として使われるようになっています。

数量化は2段階

数量化理論の話の中には、「数量化」の作業が2段階になっていて、まったく異なる視点の数量化を2回行います。

質的データを多変量解析の手法で扱うための数量化

1段階目が、質的データを多変量解析の手法で扱うための数量化です。

T、U、V類では ダミー変換 をする作業が「数量化」です。 W、X、Y類では、感覚的な大きさをアンケートなどを使って、数字にする作業が「数量化」です。

各サンプルや、質的変数のカテゴリの数量化

2段階目が、各サンプルや、質的変数のカテゴリの数量化です。

T、U、V類で使うダミー変換されたデータは、1と0しかない離散データになっている量的変数の集まりですが、 これを連続的な数値の量的変数に変換することもでき、これが「数量化」になります。 また、ダミー変換する前の質的変数のカテゴリや、W、X、Y類で使うデータの行と列のカテゴリは、質的なデータですが、 これらに対応する数値を求めることもでき、これも「数量化」になります。

数量化理論の使い道

各サンプルや、質的変数のカテゴリの定量的な分析

もともと数量化理論は、上記の2段階目まで行う手法として開発されて来ています。 心理学の分野など、アンケートなどを使って得られたデータから、定量的な分析を進めるための方法になっています。 数量化の2段階目まで進めたデータを使います。

2段階目まで進めたデータを、 特徴量エンジニアリング をしたデータのように考えて、量的変数の方法で扱うこともできます。 質的変数のグループを、1つの連続変数に変換 がこれに当たります。

目的変数の分析方法

世の中でも、数量化理論は、質的変数のデータを量的変数の方法で扱うための方法として、 理解されることが一般的になって来ているようです。

目的変数と説明変数の関係を調べたり、説明変数から予測モデルを作ったりする使い道で、T類、U類を使います。

この使い道の場合は、数量化の2段階目の作業は必要なく、1段階目のデータだけで分析をします。 また、説明変数には、質的変数と量的変数が混ざっていることもあります。 広義の数量化T類広義の数量化U類 がこれに当たります。

数量化理論で扱われるデータの種類

数量化理論で扱われるデータの種類は、以下の4つに 分かれるようです。
数量化のデータ

Data1とData2は似ていますが、「Lでなければ、MとNのどちらか」といった論理が必ず入っているかどうかが違います。

Data1の場合は、ダミー変換する前の形に逆変換して質的変数にできますが、Data2の場合はそれができません。

数量化理論の分類

数量化理論のオリジナル

「数量化理論」の解説書は以下のようになっています。

T〜V類は、質的変数や、0と1で「あり」と「なし」が表現されている変数を、量的変数の理論で扱う方法です。

W〜Y類は、 一対評価 で得られたデータから全体像を見るための方法です。

V〜Y類は、スタートになるデータの種類が異なるため、数学的な手続きが異なりますが、アウトプットが各カテゴリの座標データになる点は同じです。

広義の数量化理論

オリジナルの数量化理論では、扱う手法がある程度の範囲に決まって来ます。 このサイトでは、下記の意味に広げて、その観点で書くことにしています。 こうすることで、もともと数量化理論でやりたかったことに対して、最新の理論を使ったアプローチが考えやすくなると思っています。

数量化理論ならではの話がある

筆者は初めて数量化理論を知った時、「0と1のデータを扱うこと以外は、後は通常の多変量解析と同じ」という理解をしました。

ところが、この理解をしている内は、数量化理論でできることは限定されます。 数量化理論では、0と1になっているデータを扱うことによって、 どのようなモデルになっているのかを考えていくと、数量化理論ならではの分析の幅が広がりました。

量的変数と質的変数の両方がある時の数量化

上記のように、質的変数だけの時の数量化理論は、量的変数を対象としていた元の手法とは、わかることが異なる手法になります。

それだけでもデータ分析の世界が広がるのですが、 世の中の実際のデータには、量的変数と質的変数の両方がある時もあります。 両方がある時の進め方は、2種類あります。 これらを使い分けると、データ分析の世界はさらに広がります。

質的変数をダミー変換して、量的変数と混ぜる

数量化T類線形混合モデル で使われている進め方です。

量的変数を質的変数で 層別 して分析する感じになります。

量的変数を質的変数に変換してから、すべての変数をダミー変換

個々のカテゴリの相関分析区間高次元化回帰分析 で使われている進め方です。

量的変数は質的変数になってから量的変数に戻るのですが、区分データとして扱われています。 非線形の特徴が見やすくなります。




参考文献

多変量解析法入門」 永田靖・棟近雅彦 共著 サイエンス社 2001
重回帰分析判別分析主成分分析多次元尺度構成法 、 数量化T〜V類 が体系的にまとまっています。 決定木クラスター分析 についても短めにまとめられています。


多変量解析がわかる」 涌井良幸、涌井貞美 著 技術評論社 2011
数ページずつですが、数量化1から4類と コレスポンデンス分析 について、計算方法がコンパクトに解説されています。 各手法が何をどうやって数量化するのかが、わかりやすいです。
T類:量的データを基準に質的データを数量化
U類:質的データを基準に質的データを数量化
V類:クロス集計表の表側と表頭のカテゴリーを数量化
W類:互いの親近性から関係を数量化
コレスポンデンス分析:数量化V類の拡張。クロス集計表で各セルに2以上の数字が入っている場合の方法


数量化 理論と方法」 林知己夫 著 朝倉書店 1993
数量化理論の研究の歴史、T類からY類までの説明。多次元尺度構成法との関係


数量化法の基礎」 岩坪秀一 著 朝倉書店 1987
数量化1〜4類の計算式が詳しく書かれています。 3次元以上にデータを並べる、n-wayの数量化3類も詳しいです。


質的データの数量化」 西里静彦 著 朝倉書店 1982
双対尺度法の本です。 双対尺度法というのは、計算方法は違うものの、やろうとしているのは数量化V類や主成分分析と同じで、変数やサンプルの順番を解釈するための、 軸を見つける方法のようです。


順路 次は 広義の数量化T類

Tweet データサイエンス教室