トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

多変量解析

例えば、個人個人の身長・体重・年齢・性別・出身地・得意科目・不得意科目・睡眠時間、等々の多くの項目（変量）があるデータから、何らかの傾向を調べたい時に使うのが、多変量解析です。

多変量解析は、データのおおまかな姿を把握するための方法です。データサイエンスの中では、複数の変数の関係を調べたい時の、入門的な技術になります。

データマイニングのように、「ある身長の範囲の人だけが得意にしている科目がある。」と言うような、局所的な特徴を見つける方法ではありません。また、時間的に変化する現象の解析（時系列解析）も不得意です。

身長や時間をいくつかの範囲に分けて、範囲毎の特徴を調べるという「区分」や、男女別にして解析してみるとかの「層別」を上手に行うと、多変量解析でデータマイニングのような結果を出せることもあります。

「１変量」対「多変量」の解析 vs 複数の２変量の解析

例えば、重回帰分析では、複数の説明変数X（特徴量）を、ひとつの式で集計して、その集計値と目的変数Yとの関係を調べます。

一方で、相関分析を使って、YとそれぞれのXの、２変量の関係について調べることもできます。

これらの２つのアプローチの違いですが、扱っている現象によっては、効果が特に違わないこともあります。変数が多い場合は、いつでも多変量を使えば良いわけではないです。

１変量対多変量の解析の長所は、二重測定による判別能力の向上にもあるように、２変量の関係を見ているだけでは、絶対にわからないデータの特徴を見つけられることです。また、機械学習として、システムの中で使う時も扱いやすいです。短所は、個々のXのクセや特徴がわかりにくくなることです。

複数の２変量解析の長所と短所は、１変量対多変量の解析の逆になります。

異常値の判定や因果推論をする時は、長所と短所を考えながら、両方のアプローチを使います。

多変量解析の種類

このサイトでは、変数の関係を調べる方法や、その関係を予測やシミュレーションに使っていく方法を多変量解析の方法として分類しています。

回帰分析：「量的な１変量」対「多変量」の解析。単回帰分析、重回帰分析、パス解析、一般化線形混合モデル、ガウス過程回帰分析など
ラベル分類：「質的な１変量」対「多変量」の解析判別分析、ロジスティック回帰分析、サポートベクターマシン、 MT法など
変数の類似度の分析　：　目的変数、説明変数の区別をせずに、変数の類似度を見る。グラフィカルラッソ、主成分分析、対数線形分析など
因子分析：測っていないデータを探る。 SEM・共分散構造分析、独立成分分析など

MT法は、一般的には、多変量解析として解説されていないと思います。このサイトでは、他の分野とのつながりも考えて、多変量解析に分類しています。

多次元尺度構成法や数量化理論は、多変量解析の一種として分類されることがありますが、このサイトの考え方をすると、データマイニングとしての使い方をするものですので、このサイトでは、データマイニングに分類しています。

回帰分析やパターン認識としては、決定木、 k近傍法、ニューラルネットワークもありますが、これらは、変数の関係を手掛かりにするものではないので、データマイニングや人工知能（AI）に分類しています。

解析用のデータは、作るところから始めると

多変量のデータ多変量解析やデータマイニングの手法は、表形式のデータを解析する技術です。リレーショナルデータベースのデータなら、わりと簡単にこのようなデータが用意できますが、そうでないデータもあります。

筆者の経験では、簡単に用意できる表形式のデータからは、得られるものが限られている事が多いです。

一方、データリテラシーを駆使して、異なるデータベースや情報源が紐付けられた時、そうしてできた多変量のデータからは、大きな収穫が得られる事があります。

参考文献

「よくわかる多変量解析の基本と仕組み 巨大データベースの分析手法入門」　山口和範、高橋淳一、竹内光悦　著　秀和システム　2004
回帰分析、判別分析、数量化理論、主成分分析、因子分析、クラスター分析、アソシエーション分析、決定木、ニューラルネットワーク、自己組織化マップ、記憶ベース推論（k近傍法）、サポートベクターマシンをコンパクトに解説しています。
「中間層のない単純パーセプトロンは、重回帰分析やロジスティック回帰と同じ式になる」、「アソシエーション分析のひとつひとつの部分は、古典的なクロス集計表と同じ」、「サポートベクターマシンは判別だけを目的としていて、説明変数の影響はわからない」、「k近傍法やサポートベクターマシンは、変数を選択する事は考えていない」など、実際に使う時のポイントも示唆に富んでいます。

「多変量解析の基本と実践がよ～くわかる本　」森田浩　秀和システム　2014
回帰分析、判別分析、サポートベクターマシン、主成分分析、クラスター分析、データ包絡分析法（DEA）について、Excelでの手順も含めて解説しています。
DEAを多変量解析の入門書に入れている所が珍しいです。数理計画法の仲間でした。データを一律な見方をしないで個性も含めて一番良いものと比べる方法を、フロンティア指向というそうです。町ごとの子供の人数の比較と、町の人口あたりの子供の人数の割合の比較は意味が違って来ますが、後者の見方がフロンティア指向になります。この本では「効率」が出て来ます。

「図解でわかる多変量解析」涌井良幸・涌井貞美著　日本実業出版社　2001
重回帰分析、主成分分析、因子分析、正準相関分析、判別分析について、式の意味が絵も豊富に使いながら、丁寧に解説されています。
ちょうどこの本が出版された頃に、筆者はこの本で多変量解析を勉強し始めました。当時、本屋に並んでいた本で一番わかりやすかったので、思い入れがあります。

「多変量解析法入門」永田靖・棟近雅彦共著サイエンス社　2001
重回帰分析、判別分析、主成分分析、多次元尺度構成法、数量化Ⅰ～Ⅳ類が体系的にまとまっています。決定木、クラスター分析についても短めにまとめられています。

「仕事に使える「指標」設計入門　ビジネス課題をデータ分析で解く」　小谷祐一朗　著　日経BP社　2016
回帰分析、自己相関分析、ロジスティック回帰分析、因子分析で登場する特徴量について、データから現実的な意味を考えて、判断の指標にしています。

順路次は等質性分析

杉原データサイエンス事務所によるコンサルティングとセミナー