トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

対応のある検定(対応のある平均値の差の検定)

対応のある場合の2つの平均値の差の検定 分散分析 もそうですが、検定の方法には、対応がない場合の方法が多いです。 「対応がない場合」というのは、例えば、学校ごとにテストの平均点を計算して、その平均点の差を調べたい場合です。

「対応がある場合」というのは、例えば、 同じ学校の生徒の国語と数学の点数について、 「個人毎の国語と数学の点数の差は、どのくらいあるのか?」、といった調査です。 国語と数学の点数について、「個人」で対応があります。

他には、 2つの測定器を比較したい場合や、2つの実験条件を比較したい場合に、ペアになっているデータがある場合も当てはまります。

対応のある検定の威力

図の例は、 AとBの平均値の差の検定をしたい場合です。 左の図の場合、対応がない場合の検定を使うと、差を見出せないのですが、 対応がある場合の検定を使うと、差があることをP値で説明できます。

対応のある検定の注意点

右の図の場合は、対応がある検定を使っても、P値が小さくなりません。 個々の対については、Bの方が高いのですが、ばらつきが大きいために、「Bが高い」という結論が出ません。

グラフを見てわかるかと思いますが、このケースでは、ばらつきが大きな原因がBの異常値( 外れ値 )のせいかもしれませんので、 確認が必要です。 場合によっては、外れ値を外して検定すると良いかもしれません。

対応のある検定の計算方法

「個人」で対応のある検定を例にすると、 対応のある検定での計算では、まず、個人毎に、国語と数学の点数の差を計算します。

その次に、その点数の差について、0が母平均と言えるかどうかを検定します。 例えば、全体的に国語の方が高いのなら、点数の差は、0より高い値の方が多くなります。 有意差がなければ、「差があるとは言えない」と判断できます。

Rによる対応のある平均値の差の検定

対応のある2つの平均値の差の検定

R の使用例は下記になります。 (下記は、コピーペーストで、そのまま使えます。 この例では、Cドライブの「Rtest」というフォルダに、 「Data.csv」という名前でデータが入っている事を想定しています。 データは、2列あって、「X1」、「X2」という列名が1行目にあって、その下に数値が入っていることを想定しています。 また、同じ行にあるデータ同士が対応している、と想定します。)

setwd("C:/Rtest") # 作業用ディレクトリを変更
Data <- read.csv("Data.csv", header=T) # データを読み込み
t.test(x=Data$X1,y=Data$X2,paired=T) # 対応のある平均値の差の検定

「paired=T」以外は、 2つの母平均の差の検定 と同じです。

対応のある3つ以上の平均値の差の検定

分散分析 にも対応のある場合のものがあります。

R の使用例は下記になります。 (下記は、コピーペーストで、そのまま使えます。 この例では、Cドライブの「Rtest」というフォルダに、 「Data.csv」という名前でデータが入っている事を想定しています。

データは、1列目、2列目は「X1」、「X2」という列名でカテゴリ、3列目は「Y」という列名で数値が入っていることを想定しています。 「X2」が対応を表す文字列になります。

setwd("C:/Rtest") # 作業用ディレクトリを変更
Data <- read.csv("Data.csv", header=T) # データを読み込み
summary(aov(Y~X1+X2,data=Data)) # 対応のある一元配置分散分析

交互作用項のない二元配置の 分散分析 と同じになります。






二重測定による繰り返し誤差の推定

順路 次は ばらつきの違いの検定

Tweet データサイエンス教室