サンプル数の決め方 には統計的なものもあります。
サンプル数の統計的な決め方は、大きく分けて2種類あります。
例えば、平均値0を基準として、平均値が2、標準偏差が1、サンプル数がnとすると、検定統計量Xは、
X = (1-0) / (1/nの平方根)
となります。
第1種の過誤αを0.05とするのなら、0.05の時の検定統計量は、1.96以上になるはずです。
Xのところに1.96を入れると、nの最小値が求まります。
有意水準と検出力とサンプル数 のページで、もう少し詳しく説明しています。
「標準誤差はこのくらいより小さくしたい」ということがあれば、「標準誤差 = 標準偏差/nの平方根」なので、標準偏差が決まれば、nが決まります。
信頼区間は、標準誤差に、例えば、95%のt値をかけ合わせたものなので、信頼区間の目標値がある場合でも、同様にして求まります。
この求め方の例は、 2群の検定のサンプル数の決め方 にあります。
また、 21世紀の検定のサンプル数 は、 P値の信頼区間 からサンプル数を概算しています。
サンプル数を決める式で、帰無仮説と対立仮説の数字を使うところの他に、標準偏差も使います。
事前に類似の実験をしていれば、標準偏差がどのくらいなのかが想定できますが、初めて扱う場合、ある程度データを見ないと、標準偏差はわからないです。
どのようなデータになるかがわからないから、事前にサンプル数を決めようとしているのに、それをするには、どのようなデータなのかがわかっている必要があり、 方法論としては、使えないものになっています。 もし使うのなら、何らかの仮定をして、「標準偏差はこのくらい」と推定する必要があります。
また、 誤差とn数 のページにあるように、標準偏差の信頼区間は、けっこう広いです。 そのため、ちょっと実験して、標準偏差はどのくらいなのかを調べてみようとした場合、10個や100個といった規模のサンプルを調べる必要があります。 できるだけ少ない回数にしたくて、サンプル数を決めたいのに、たくさん実験する必要があり、この点にも矛盾を抱えています。
「サンプルサイズの決め方」 永田靖 著 朝倉書店 2003
サンプルサイズの決め方として、有意水準と検出力を元にする方法と、信頼区間を元にする方法を解説しています。
順路 次は ゼロ十分数