トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

多変量解析

例えば、個人個人の身長・体重・年齢・性別・出身地・得意科目・不得意科目・睡眠時間、 等々の多くの項目(変量)があるデータから、何らかの傾向を調べたい時に使うのが、多変量解析です。

多変量解析は、データのおおまかな姿を把握するための方法です。 データサイエンス の中では、複数の変数の関係を調べたい時の、入門的な技術になります。

データマイニング のように、「ある身長の範囲の人だけが得意にしている科目がある。」と言うような、 局所的な特徴を見つける方法ではありません。 また、時間的に変化する現象の解析( 時系列解析 )も不得意です。

身長や時間をいくつかの範囲に分けて、範囲毎の特徴を調べるという「区分」や、 男女別にして解析してみるとかの「 層別 」を上手に行うと、多変量解析で データマイニング のような結果を出せることもあります。

「1変量」対「多変量」の解析 vs 複数の2変量の解析

例えば、 重回帰分析 では、複数の説明変数X( 特徴量 )を、ひとつの式で集計して、その集計値と目的変数Yとの関係を調べます。

一方で、 相関分析 を使って、YとそれぞれのXの、2変量の関係について調べることもできます。

これらの2つのアプローチの違いですが、扱っている現象によっては、効果が特に違わないこともあります。 変数が多い場合は、いつでも多変量を使えば良いわけではないです。

1変量対多変量の解析の長所は、 二重測定による判別能力の向上 にもあるように、2変量の関係を見ているだけでは、絶対にわからないデータの特徴を見つけられることです。 また、 機械学習 として、システムの中で使う時も扱いやすいです。 短所は、個々のXのクセや特徴がわかりにくくなることです。

複数の2変量解析の長所と短所は、1変量対多変量の解析の逆になります。

異常値の判定因果推論 をする時は、長所と短所を考えながら、両方のアプローチを使います。

多変量解析の種類

このサイトでは、変数の関係を調べる方法や、その関係を 予測やシミュレーション に使っていく方法を多変量解析の方法として分類しています。

MT法 は、一般的には、多変量解析として解説されていないと思います。 このサイトでは、他の分野とのつながりも考えて、多変量解析に分類しています。

多次元尺度構成法数量化理論 は、多変量解析の一種として分類されることがありますが、 このサイトの考え方をすると、 データマイニング としての使い方をするものですので、このサイトでは、 データマイニング に分類しています。

回帰分析パターン認識 としては、 決定木k近傍法ニューラルネットワーク もありますが、これらは、変数の関係を手掛かりにするものではないので、 データマイニング人工知能(AI) に分類しています。

解析用のデータは、作るところから始めると

多変量のデータ 多変量解析や データマイニング の手法は、表形式のデータを解析する技術です。 リレーショナルデータベース のデータなら、わりと簡単にこのようなデータが用意できますが、そうでないデータもあります。

筆者の経験では、簡単に用意できる表形式のデータからは、得られるものが限られている事が多いです。

一方、 データリテラシー を駆使して、異なるデータベースや情報源が紐付けられた時、 そうしてできた多変量のデータからは、大きな収穫が得られる事があります。



手法の使い分け

予測

ロバストな解析

速度データ


参考文献

よくわかる多変量解析の基本と仕組み 巨大データベースの分析手法入門」 山口和範、高橋淳一、竹内光悦 著 秀和システム 2004
回帰分析判別分析数量化理論主成分分析因子分析クラスター分析アソシエーション分析決定木ニューラルネットワーク自己組織化マップ記憶ベース推論(k近傍法)サポートベクターマシン をコンパクトに解説しています。
「中間層のない単純パーセプトロンは、重回帰分析やロジスティック回帰と同じ式になる」、 「アソシエーション分析のひとつひとつの部分は、古典的なクロス集計表と同じ」、 「サポートベクターマシンは判別だけを目的としていて、説明変数の影響はわからない」、 「k近傍法やサポートベクターマシンは、変数を選択する事は考えていない」 など、実際に使う時のポイントも示唆に富んでいます。


多変量解析の基本と実践がよ〜くわかる本 」 森田浩 秀和システム 2014
回帰分析判別分析サポートベクターマシン主成分分析クラスター分析、 データ包絡分析法(DEA)について、Excelでの手順も含めて解説しています。
DEAを多変量解析の入門書に入れている所が珍しいです。数理計画法の仲間でした。 データを一律な見方をしないで個性も含めて一番良いものと比べる方法を、フロンティア指向というそうです。 町ごとの子供の人数の比較と、町の人口あたりの子供の人数の割合の比較は意味が違って来ますが、後者の見方がフロンティア指向になります。 この本では「効率」が出て来ます。


図解でわかる多変量解析」 涌井良幸・涌井貞美 著 日本実業出版社 2001
重回帰分析主成分分析因子分析正準相関分析判別分析 について、式の意味が絵も豊富に使いながら、丁寧に解説されています。
ちょうどこの本が出版された頃に、筆者はこの本で多変量解析を勉強し始めました。 当時、本屋に並んでいた本で一番わかりやすかったので、思い入れがあります。


多変量解析法入門」 永田靖・棟近雅彦 共著 サイエンス社 2001
重回帰分析判別分析主成分分析多次元尺度構成法数量化T〜W類 が体系的にまとまっています。 決定木クラスター分析 についても短めにまとめられています。


仕事に使える「指標」設計入門 ビジネス課題をデータ分析で解く」 小谷祐一朗 著 日経BP社 2016
回帰分析自己相関分析ロジスティック回帰分析因子分析で登場する特徴量について、データから現実的な意味を考えて、判断の指標にしています。





順路 次は 等質性分析

Tweet データサイエンス教室