Pythonによるデータ分析 | Rによる相関係数分析

Pythonによる変数の類似度の分析

変数の類似度の分析 です。

もともとの方法は、量的変数だけのグループの手法ですが、 このページのコードは量的、質的の両方が使えるようにしてあります。

量的変数の類似度の分析方法をベースにした方法

基本的に量的変数を扱う方法ですが、質的変数は ダミー変換 して質的・量的が混合していたり、質的変数だけでも使えるようにしてあります。

この方法の場合、質的変数同士の分析結果は、 Pythonによる個々のカテゴリの類似度の分析 と似て来ます。

総当たりの散布図

量的変数の類似度を見る方法として散布図は基本なので、 総当たりの散布図を見ることは大事です。

ただし、下記は変数が9個の場合ですが、たった9個でもこの後の分析が進めにくいグラフができあがります。 他の方法を使って、グラフにする変数は絞った方が良いです。

import os #パッケージの読み込み
import pandas as pd
#パッケージの読み込み
import matplotlib.pyplot as plt
# パッケージの読み込み
import seaborn as sns
# パッケージの読み込み
from sklearn import preprocessing
# パッケージの読み込み
%matplotlib inline
sns.set(font='HGMaruGothicMPRO')
# PandasのPlotのグラフの見た目をseaborn風にする。グラフのフォントを設定する
os.chdir("C:\\PyTest")
# 作業用ディレクトリを変更
df= pd.read_csv("Data.csv" , engine='python')
# データを読み込み
df2 = pd.get_dummies(df)
# 質的変数はダミー変換
sns.pairplot(df2)
# 総当たりの散布図を作る
総当たりの散布図

相関係数+クラスタリング付きのヒートマップ

相関係数を計算して、クラスタリング付きのヒートマップでグラフにする方法です。

import os #パッケージの読み込み
import pandas as pd
#パッケージの読み込み
import matplotlib.pyplot as plt
# パッケージの読み込み
import seaborn as sns
# パッケージの読み込み
from sklearn import preprocessing
# パッケージの読み込み
%matplotlib inline
sns.set(font='HGMaruGothicMPRO')
# PandasのPlotのグラフの見た目をseaborn風にする。グラフのフォントを設定する
os.chdir("C:\\PyTest")
# 作業用ディレクトリを変更
df= pd.read_csv("Data.csv" , engine='python')
# データを読み込み
df2 = pd.get_dummies(df)
# 質的変数はダミー変換
df3 = df2.corr()
# 相関係数行列を計算
sns.clustermap(df3, method='ward', metric='euclidean')
# クラスタリング付きのヒートマップ
1つの量的変数と、他のすべての変数の組み合わせのグラフ



Tweet データサイエンス教室