Pythonによるデータ分析 | Rによる相関係数分析

Pythonによる変数の類似度の分析

変数の類似度の分析です。

もともとの方法は、量的変数だけのグループの手法ですが、このページのコードは量的、質的の両方が使えるようにしてあります。

量的変数の類似度の分析方法をベースにした方法

基本的に量的変数を扱う方法ですが、質的変数はダミー変換して質的・量的が混合していたり、質的変数だけでも使えるようにしてあります。

この方法の場合、質的変数同士の分析結果は、 Pythonによる個々のカテゴリの類似度の分析と似て来ます。

総当たりの散布図

量的変数の類似度を見る方法として散布図は基本なので、総当たりの散布図を見ることは大事です。

ただし、下記は変数が９個の場合ですが、たった９個でもこの後の分析が進めにくいグラフができあがります。他の方法を使って、グラフにする変数は絞った方が良いです。

import os #パッケージの読み込み
import pandas as pd #パッケージの読み込み
import matplotlib.pyplot as plt# パッケージの読み込み
import seaborn as sns # パッケージの読み込み
from sklearn import preprocessing # パッケージの読み込み
%matplotlib inline
sns.set(font='HGMaruGothicMPRO') # PandasのPlotのグラフの見た目をseaborn風にする。グラフのフォントを設定する
os.chdir("C:\\PyTest") # 作業用ディレクトリを変更
df= pd.read_csv("Data.csv" , engine='python')# データを読み込み
df2 = pd.get_dummies(df)# 質的変数はダミー変換
sns.pairplot(df2) # 総当たりの散布図を作る

相関係数＋クラスタリング付きのヒートマップ

相関係数を計算して、クラスタリング付きのヒートマップでグラフにする方法です。

import os #パッケージの読み込み
import pandas as pd #パッケージの読み込み
import matplotlib.pyplot as plt# パッケージの読み込み
import seaborn as sns # パッケージの読み込み
from sklearn import preprocessing # パッケージの読み込み
%matplotlib inline
sns.set(font='HGMaruGothicMPRO') # PandasのPlotのグラフの見た目をseaborn風にする。グラフのフォントを設定する
os.chdir("C:\\PyTest") # 作業用ディレクトリを変更
df= pd.read_csv("Data.csv" , engine='python')# データを読み込み
df2 = pd.get_dummies(df)# 質的変数はダミー変換
df3 = df2.corr() # 相関係数行列を計算
sns.clustermap(df3, method='ward', metric='euclidean') # クラスタリング付きのヒートマップ
１つの量的変数と、他のすべての変数の組み合わせのグラフ

Pythonによるデータ分析

杉原データサイエンス事務所によるコンサルティングとセミナー