変数の類似度の分析 です。
もともとの方法は、量的変数だけのグループの手法ですが、 このページのコードは量的、質的の両方が使えるようにしてあります。
基本的に量的変数を扱う方法ですが、質的変数は ダミー変換 して質的・量的が混合していたり、質的変数だけでも使えるようにしてあります。
この方法の場合、質的変数同士の分析結果は、 Pythonによる個々のカテゴリの類似度の分析 と似て来ます。
量的変数の類似度を見る方法として散布図は基本なので、 総当たりの散布図を見ることは大事です。
ただし、下記は変数が9個の場合ですが、たった9個でもこの後の分析が進めにくいグラフができあがります。 他の方法を使って、グラフにする変数は絞った方が良いです。
import os #パッケージの読み込み
import pandas as pd #パッケージの読み込み
import matplotlib.pyplot as plt# パッケージの読み込み
import seaborn as sns # パッケージの読み込み
from sklearn import preprocessing # パッケージの読み込み
%matplotlib inline
sns.set(font='HGMaruGothicMPRO') # PandasのPlotのグラフの見た目をseaborn風にする。グラフのフォントを設定する
os.chdir("C:\\PyTest") # 作業用ディレクトリを変更
df= pd.read_csv("Data.csv" , engine='python')# データを読み込み
df2 = pd.get_dummies(df)# 質的変数はダミー変換
sns.pairplot(df2) # 総当たりの散布図を作る
相関係数を計算して、クラスタリング付きのヒートマップでグラフにする方法です。
import os #パッケージの読み込み
import pandas as pd #パッケージの読み込み
import matplotlib.pyplot as plt# パッケージの読み込み
import seaborn as sns # パッケージの読み込み
from sklearn import preprocessing # パッケージの読み込み
%matplotlib inline
sns.set(font='HGMaruGothicMPRO') # PandasのPlotのグラフの見た目をseaborn風にする。グラフのフォントを設定する
os.chdir("C:\\PyTest") # 作業用ディレクトリを変更
df= pd.read_csv("Data.csv" , engine='python')# データを読み込み
df2 = pd.get_dummies(df)# 質的変数はダミー変換
df3 = df2.corr() # 相関係数行列を計算
sns.clustermap(df3, method='ward', metric='euclidean') # クラスタリング付きのヒートマップ