トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

クロス集計表の回帰分析

対数線形分析には、クロス集計したデータの回帰分析という側面があります。

このように考えると、 A-B型の分析として幅が広がります。

対数線形分析でできること

左のような質的変数が２つあるデータがあったとします。それをクロス集計すると、右側のデータが作れます。

クロス集計表の中でも、データの個数についてまとめたものは、分割表と呼ばれます。

対数線形分析を実際に実行する時は、まず、分割表を下のような形にします。

ダミー変換します。

多重共線性があるので、最終的に分析対象にするのは、下の形式のデータです。

目的変数が「Count」で、交互作用項のある回帰分析をします。このデータは、目的変数がカウントデータ（計数値）なので、普通の回帰分析ではなく、ポアソン回帰分析をします。

平均値で集計した場合

左のような質的変数が２つあるデータがあったとします。今度はYという量的変数もあります。

Yの平均値（Average）で集計すると、右側のデータが作れます。

説明変数が質的変数の場合に、ダミー変換を使う回帰分析は、数量化Ⅰ類と呼ばれています。

ちなみに、上記は説明のために、X1とX2のそれぞれについてカテゴリが２つずつしかないですが、２つずつだと、サンプルが少な過ぎて分析が不安定になります。

２値の場合

場合分けとしては、クロス集計のデータが0と1だけの２値データの場合も考えられます。

２値データの場合は、ロジスティック回帰分析で何か出そうな気もしましたが、ダメでした。クロス集計してしまうと、サンプル数が極端に少ない回帰分析になるのが原因のようです。

ソフト

R

Rによるクロス集計表の回帰分析があります。

R-EDA1

R-EDA1 では、行と列に項目名が配置されている分割表データのモデル化と、変数の類似度の分析の２つの使い道が、両方ともできるようになっています。

分割表のデータのモデル化

分割表のデータのモデル化は、「Two_way_GLM」で、「poisson_log」を選ぶとできます。ちなみに、「gaussian_identity」を選ぶと、頻度のデータではない場合のモデル化で、数量化Ⅰ類になります。
Log linear data Log linear model in R-EDA1

変数の類似度の分析

分割表に集計されていない質的変数のデータを使う場合は、やり方が２つあります。「Method」で「Log＿Linear」を選ぶと、データセットの全部の変数をスタートにして、モデルの探索が始まります。「Stratifeid_graph」を選んで、「Graph type」を「bar」にすると、グラフの作成に選んだ変数をスタートにして、モデルの探索が始まります。

この機能の場合、量的変数が混ざっていると、量的変数は１次元クラスタリングをして質的変数として扱われます。また、この例は、２変数ですが、３変数以上でもできます。
Log linear data Log linear model in R-EDA1

縦一列に数値が入っている分割表のデータのモデル化

縦一列に数値が入っている分割表からスタートする場合は、一般化線形混合モデル（GLMM）の機能を選ぶとできます。例の場合は、３列目に数値が入っているので、「３」を指定する必要があります。この形の分割表になっていると、３変数以上でもできます。
Log linear data Log linear model in R-EDA1

順路次は行列の分解

杉原データサイエンス事務所によるコンサルティングとセミナー