Data Analysis by R

Rによるデータ分析


Rを使ってデータ分析をするためのレシピ集です。

Rによるデータ分析について

環境と品質のためのデータサイエンス
R-EDA1によるデータ分析
Pythonによるデータ分析
Excelによるデータ分析

ウェブアプリR-EDA1
ウェブアプリR-QCA1

ENGLISH


データサイエンス教室

探索的データ分析

データ全体の可視化

データ全体の可視化 : 変数別の折れ線グラフ、ヒートマップ、拡大できる折れ線グラフ

変数の類似度

変数の類似度の分析 : 総当たりの散布図、(相関係数、グラフィカルラッソ、LiNGAM、連関係数)×ネットワークグラフ、主成分分析×多次元尺度構成法、対数線形分析

変数の選択 : ステップワイズ法、遺伝的アルゴリズム、LASSO回帰

隠れ変数の分析 : 主成分分析、独立成分分析、因子分析

異常の定量化の分析 : MT法、(主成分分析、カーネル主成分分析、混合分布法)×MT法、LOF、最小距離法

個々のサンプルの因果推論 : Shap値の計算

個々のカテゴリの類似度

個々のカテゴリの類似度の分析 : コレスポンデンス分析×多次元尺度構成法、アソシエーション分析×ネットワークグラフ

サンプルの類似度

高次元を2次元に圧縮して可視化 : (多次元尺度構成法・t-SNE・自己組織化マップ)×クラスター分析

外れたサンプルの探索 : スミルノフ=グラブス検定、LOF

回帰分析系で高次元を2次元に圧縮して可視化 : 回帰分析、モデル木、サポートベクター回帰、ニューラルネットワーク

行と列の項目の、項目同士の類似度

行と列の項目の、項目同士の類似度の分析 : 2部グラフ、コレスポンデンス分析×多次元尺度構成法×同時付置図

テキストデータ

テキストマイニング

時系列データ

準周期データの分析 : 2次データへの変換

周期性のあるデータの分析 : fft、自己相関、相互相関、差分

時系列データの次元削減分析 :(主成分分析、独立成分分析、因子分析)×折れ線グラフ

検証的データ分析

違いの有無の分析 : 層別の1次元分布のグラフ、平均値の差の検定、ばらつきの違いの検定、比率の差の検定、独立性の検定

正規性の分析 : シャピロ・ウィルク検定

予測区間の分析

管理図 : 管理図、工程能力

ゲージR&R

手法を深く使う分析

主成分回帰分析 : 主成分回帰分析、因子分析

決定木 : 二進木、N進木、ランダムフォレスト

クラスター分析 : 階層型、非階層型(k-means法、X-means法、混合分布法、DBSCAN)

多次元尺度構成法 : 多次元尺度構成法、ネットワーク式の多次元尺度構成法

一般化線形混合モデル : 一般化線形モデル、線形混合モデル

対数線形分析 : 対数線形分析

主成分分析 : 主成分分析、主成分分析×多次元尺度構成法、質的変数の主成分分析

コレスポンデンス分析 : コレスポンデンス分析、多重対応分析

因子分析 : 因子分析

LiNGAM : LiNGAM

項目反応理論 : 項目反応理論

ロジスティック回帰分析 : ロジスティック回帰分析

ベイジアンネットワーク : ベイジアンネットワーク

スプライン : スプライン補間、平滑化スプライン、多変量適応的回帰スプライン

生存時間分析 : カプラン・マイヤー法、ワイブル解析、コックス回帰分析

正準相関分析 : 目的変数が複数ある回帰分析。変数の群同士の相関分析

区間高次元化回帰分析 : 区間に分けて単純な回帰分析を実施

ベクトル量子化ラベル分類 : 質的変数で複雑な分布をシンプルに扱う

Rでグラフを描く

標準グラフ機能

ggplot2

Plotly

ネットワークグラフ

ヒートマップ

パレート図

データの前処理

変数の変換 : ダミー変換、1次元クラスタリング

クロス集計

サンプルデータ : サンプルデータの入手、自作

欠損値のあるデータの分析

可到達行列