トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

変数の仲間分けの分析

変数の仲間分けの分析では、データの表を縦に短冊状に切って、短冊同士の近さを見ます。
関係性の行列表現

変数の仲間分けの分析は、 「変数がたくさんあるけど、分類できないか?」といった感じで、 データマイニング の最初の段階でします。

また、 多変量解析 で、 多重共線性 を考えながら、 変数の選択 をするための分析としても使われます。

量的な変数の仲間分けの分析

量的な変数の場合は、 多変量データの相関分析主成分分析行列の分解正準相関分析 などが変数の仲間分けの分析として使えます。

質的な変数の仲間分けの分析

質的な変数の場合は、 独立性の検定 が2つの変数同士の近さを調べる方法になるので、これを全部の変数の組み合わせで実行すると、変数の仲間分けの分析として使えます。

3つ以上の場合は、 対数線形分析 があります。

Natto

Natto」というフリーソフトでは、質的な変数の相関性が分析できるようになっています。 「独立性の検定を、全部の変数の組み合わせで実行」ができるソフトは、筆者はNatto以外を知りません。
nattoの例

Nattoは、量的な変数が混ざっていると質的な変数に変換して分析できます。

ちなみに、Nattoは、 個々のカテゴリの仲間分けの分析 もできるようになっています。

質的な変数の相関性

相関性 と言えば、2つの量的な変数の関係の話になっている事が多いです。

データの形式は、量的と質的の2種類に大きく分かれますが、 質的なデータについても、相関性はあります。 質的な変数の仲間分けの分析は、質的なデータの相関性を使います。

天気のデータの例で言えば、A地点とB地点は、天気が似ているので、「相関が高い」と言えます。 一方、A地点とC地点は、天気が似ていないので、「相関が低い」と言えます。

この相関性は、変数同士の関係を見るので、 多変量解析 的です。 独立性の検定対数線形分析 が、古くから研究されています。

質的な変数の相関性の尺度は、「連関係数」と呼ばれています。 連関係数は、このページのように変数ごとに縦に並んでいる表を、 分割表 の形にしてから計算されます。

天気のデータ

なお、量的な変数の相関性の解析は、変数と変数の相関性を見るのが普通です。 質的な変数では、変数の中に入っている個々の質的データ(カテゴリ・単語)に注目した分析もできます。 個々のカテゴリの相関性は、 個々のカテゴリの仲間分けの分析 で使います。

非線形の分析

量的変数の相関性では、2つの変数で散布図を描いた時に、データが一本の直線に近くなるかどうかで、相関の高さがわかります。 このため、線形の評価になります。

この考え方を、質的変数の相関性で考えると、質的変数の相関性の解析では、非線形を扱っています。

量的変数を 1次元クラスタリング で質的変数に変換して、質的な変数の仲間分けの分析をする方法は、非線形分析の目的でも役に立ちます。



参考文献

Natto のサイトには、ソフトのダウンロードや、理論の解説があります。



順路 次は 多変量データの相関分析

Tweet データサイエンス教室