トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

独立性の検定

2元分割表はシンプルな 分割表 です。
関係性の行列表現

この2元に、「関係(相関)があるのか?」という分析は、「独立性の検定」と呼ばれています。

関係がない場合、表の中の値は、ほぼ均等になるはずです。 独立性の検定では、何らかの関係があると、値が偏って来ると考えます。

独立性の検定が対称とする2元の 分割表 は、2つの質的変数のデータから作られることを考えると、独立性の検定は、2つの質的変数についての類似度(相関)を見る方法と言えます。

2つの変数の組の関係を網羅的に調べるのなら、 変数の類似度の分析 としても使えます。 この使い方は、たくさんの量的変数の関係を見るために、 多変量データの相関分析 をするのと、同じ考え方をしています。

質的なデータの相関性を見る手法だが、応用として量的なデータにも使える

独立性の検定は、2つの質的変数についての類似度(相関)を見る方法です。

ただ、量的なデータに使えない訳ではなく、「0未満、0以上10未満、10以上20未満、20以上30未満、30以上」といった区間データにしてしまえば、 使うこともできます。

この方法のさらなる応用として、「0以上10未満、100以上200未満、1000以上2000未満」 といった感じで、区間に隙間があるデータでも、特に問題なく使えます。

2×2の分割表の場合

2元分割表の中でも、一番シンプルなのが、2×2の分割表です。

2×2の分割表では、
クロス集計
のようにデータが並んでいる場合、Φ(ファイ)(点相関係数)やカイ二乗が、独立性の指標になります。 カイ二乗は、カイ二乗検定で 検定 もできます。
クロス集計
クロス集計

m×nの分割表の場合は、カイ二乗の計算は、もう少し複雑になります。 煩雑な計算ですし、ネット上にも、たくさん紹介されていますので、このページでは省略します。

○×の正誤表

○×の正誤表は、 パターン認識 の精度の評価にも使われます。

分割表 のページにあるような例だと、2元の相関を考えることは、あまり重要ではありませんが、 正誤表のような分割表だと、相関は重要です。 相関がないということは、答えがデタラメということになります。
クロス集計

計算例

2×3の分割表の場合 その1

2×3の分割表で試してみます。
関係性の行列表現

まず、左側の表の6個のデータは、あまりばらついていません。 この場合がp値がほぼ1です。

右側の表は、1個のデータだけが特に大きいです。 この場合がp値がかなり小さくなっています。

2×3の分割表の場合 その2

違うタイプの2×3の分割表で試してみます。
関係性の行列表現

左右の表は、一番右の列の数字が逆になっているだけですが、右側の表の方がp値がかなり小さいです。 行方向と列方向の項目の何かの相関があると、p値が小さいことがわかります。

9×7の分割表の場合 その1

表のサイズを大きくしてみます。 右の表に行くほど、データのばらつきを大きくしてみます。
関係性の行列表現

データのばらつきが大きくなると、それに伴ってp値も小さくなっています。 p値の大きさは、ばらつきで変わっていることがわかります。

ばらつきの大きいことがポイントになる場合に、ばらつきを測る方法として使えます。

9×7の分割表の場合 その2

表のサイズは9×7で同じなのですが、極端に値の高い場所がある場合です。
関係性の行列表現

左側の表は、あまりばらついていません。 この場合がp値はちょうど1です。 中央の表は、ひとつの行だけ値が高めです。 この場合もp値はちょうど1です。 右側の表は、中央の表の数字を入れ替えてみたものです。 p値は、かなり0に近い値になっています。

その1で、「ばらつきの尺度」と書きましたが、特定の行だけが値が高くてばらつきが大きい場合は、この尺度では測れない事がわかります。

ソフト

R

独立性の検定は、 Rによる違いの有無の分析 にあります。

R-EDA1

R-EDA1 では「Stratifeid_graph(層別のグラフ)」を選んで、「bar(棒グラフ)」を選ぶと、 グラフを描くために選んだ変数を使って、独立性の検定ができます。 2つの質的変数で分割表を作って、検定をするまでの手順が自動になっています。
GLMM in R-EDA1 Independence Test in R-EDA1

分割表にすでになっているデータを分析する場合は、上記とは違う場所になっています。
Independence Test in R-EDA1



参考文献

独習統計学24講 すべての医療系学生・研究者に贈る 応用編」 鶴田陽和 著 朝倉書店 2016
独立性の検定として、尤度比検定、Fisherの正確検定、カイ二乗検定を説明し、それらの使い分けの話もあります。 使い分けについては、人によって解釈の違うところもあるそうです。


品質工学の数理」 田口玄一 著 日本規格協会 1999
Φの2乗と同じ計算式になっている指標を独立性の評価に使っています。
m×nの分割表の場合は、「1つのカテゴリ 対 多のカテゴリ」の分割表と考え、あるカテゴリ以外は合計してしまいます。 こうすることで、2×2の分割表の計算が使えるようにします。 カテゴリに順序がある場合、カイ二乗よりもこの計算の方が、人の感覚に近い評価ができるそうです。


多元表の分析

グラフィカルモデリング」 宮川雅巳 著 朝倉書店 1997
独立性の検定は、2元分割表の相関分析ですが、この本では3元以上の相関分析の方法も紹介されています。 対数線形モデル(生起確率の対数をYにした、交互作用項を含む線形モデル)にして、 多変量データの相関分析 に持ち込んでいます。


分割表の統計解析 二元表から多元表まで」 宮川雅巳・青木敏 著 朝倉書店 2018
同著者の上記の本から、さらに多元分割表からの相関分析の方法を研究した内容になっています。




順路 次は 対数線形分析

Tweet データサイエンス教室