トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

データサイエンス教室

多対多の分析

重回帰分析 は、一対多(Yが1つ、Xが複数)の分析方法です。 多対多の分析方法というものもあります。

多対多の分析では、複雑な関係を、できるだけシンプルに見る事を目指します。

行列の型による分類

多対多の分析には、いろいろなアプローチがあります。 このサイトでは、分析のスタートにするデータの型として、 A-B型A-A型AB-C型 の3種類に分類してみました。

A-B型 は、何らかのルールで、 A-A型 に変換できます。 また、 AB-C型 は、 A-B型 の分析手法で進める事もできます。 これらの型の使い分けは、 データサイエンスの広大な未開拓地 という点で重要です。
関係性の行列表現 関係性の行列表現 関係性の行列表現

A-B型の分析に、A-A型の分析を使う

主成分分析で元のデータがA-B型の場合は、A-B型をA-A型に変換して解析しています。 A(変数)の項目について、特徴を把握してから、その特徴とB(サンプル)の関係との把握に進む分析をすることもあります。

つまり、A-B型の特徴を見つける方法には、直接 行列分解 する方法と、一度、A-A型にする方法の、2通りがあります。

共分散行列や相関行列に対して、固有値を求めるのが主成分分析です。

AHP

AHP は、行列のグループを使っています。 メインの部分はA-B型ですが、 サブの部分はA-A型です。 このA-A型の部分の計算に固有値を使いますが、 対角上の要素は逆数になっている特殊な行列です。

A-B型のグラフ

A-B型のグラフは、 ネットワーク の分野では、二部グラフと呼ばれます。

A-A型のグラフ

A-A型は、 ネットワーク の分野では、「隣接行列」と呼ばれます。 ネットワークの書き方と描き方 でグラフにする事ができます。 ネットワークのデータの場合、一番シンプルなのは、0と1で、各要素がつながるかどうかを表している形です。 0と1以外の数字も使う場合は、値が大きいほど関係が近い事を表しています。

また、各要素の数字が「距離」(値が大きいほど関係が遠い事を表す)として扱えるのなら、 多次元尺度構成法 があります。

二項関係を扱う理論

A-B型は二項関係とも言えます。 二項関係を直接分析する手法としては、 Q分析 があります。

行と列の解釈で応用自在

統計学の分野では、A-B型のAを「変数」、Bを「サンプル」として使う事が多いです。 多変量解析データマイニング のほとんどの手法は、A-B型のデータからスタートします。

テキストマイニング では、A-B型のAを「単語」、Bを「テキスト」として、 共起 の表現に使う事もあります。



順路 次は 行列の分解

Tweet