トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

シフトの検定

このページの「分布のズレの検定」というのは、 21世紀の検定 として、筆者が考案した方法のひとつです。 他の 21世紀の検定 と同様に、世の中ですでに同じものが発表されている可能性はあるのですが、 筆者の知る限りではなさそうなので、筆者が名前を付けています。

「シフトの検定」は、 平均値の検定21世紀の検定 版です。

distribution gap
以下の例では、上のような10個のデータがあり、「0よりも大きいと言えるか?」を調べたかったとします。 平均値は0.45、標準偏差は0.42です。

シフトの効果量の検定(パラメトリック)

シフトの効果量の検定では、
(平均値 ― 基準値) / 標準偏差
効果量と考えます。

シフトでできた差が、標準偏差の何倍かを見ています。 これは、 標準化 と同じ作業をしています。 標準化をすると、標準正規分布でよく知られている確率の考え方が使えます。

上の例だと、平均値は0.45、基準値は0、標準偏差は0.42なので、「(平均値 ― 基準値) / 標準偏差」は、約1です。 P値として見るのは、上の図の赤い部分になります。 この場合は、約16%(0.16)です。

平均値の検定との関係

この方法は、平均値の検定(母平均の検定)の検定統計量で、標準誤差(標準偏差/サンプル数の平方根)の部分を標準偏差に変えたものになっています。

具体的な計算式

EXCELの場合、下の式でP値が求まります。
=1 - NORM.DIST((0.45 - 0)/0.42,0,1,TRUE)

NORM.DISTの計算では、正規分布の白い部分が求まるので、1から引いています。

効果量の信頼区間

平均値の検定では、平均値の信頼区間が下記の式になっています。 95% t値というのは、サンプル数で変わりますが、約2です。

そのため、効果量の信頼区間は、下記の式で良いような気がしています。

P値の信頼区間

P値の信頼区間 は、効果量の信頼区間の上側と下側の値を、P値の計算式に入れて計算すれば良さそうです。

P値は、小さければ小さいほど、期待される量なので、判断ミスの防止として必要として知りたいのは、 P値の信頼区間の上側になります。 下記は、上側の求め方ですが、下側でも同様です。

EXCELの場合、例えば、下の式でp値の信頼区間(上側)が求まります。nは、サンプル数です。
=(1 - NORM.DIST((0.45 - 0)/0.42 - 1.96/sqrt(n),0,1,TRUE))*2

正規分布のシフトの検定(パラメトリック)

正規分布を仮定して、基準値の位置から決まる赤い色の範囲をP値と考えます。
distribution gap

この方法は、シフトの効果量の検定と、実質的に同じことをしているので、同じ数字が求まります。

具体的な計算式

EXCELの場合、下の式でP値が求まります。
=NORM.DIST(0,0.45,0.42,TRUE)

比率のシフトの検定(ノンパラメトリック)

比率のシフトの検定は、簡単で、0以下のデータの割合を調べます。 この例では、10個中1個なので、
0.1 (= 1 / 10)
です。

分布のズレの検定2では、
P値 = 0.1 (= 1 / 10)
と考えます。

シフトの効果量の検定は、分布を仮定して計算する必要がありますが、比率のシフトの検定は、何でも使えます。ノンパラメトリック検定の一種とも言えます。




順路 次は サンプル毎の差の検定

データサイエンス教室