トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

サンプル数の決め方

データを調べたい場合、既にあるデータを調べるのではなく、データを集めるところから始めなければいけないことがあります。

そのような時は、「データは何個あれば良いのか?」という問題があります。 データの個数は、「サンプルサイズ」と呼ばれます。

実務的な決め方

筆者の実務経験で言えば、何かを比べたい場合は、比べたいもののデータを5個ずつ集めます。

5個集めてみて、ばらつきが大きくて判断に迷いそうなら、10個ずつ集めます。 これくらいのデータの数で、差が見えるかどうかが、その仮説や対策に目に見えた効果が期待できるかどうかの目安になります。

ばらつきが大きいと、とにかくたくさんデータを集めて、分布の形をはっきりさせたい気持ちになることもありますが、 はっきりしたところで、結論が変わるものでもありません。

もっと何かをするのなら、ばらつきが大きいことの原因を調べ始める方が、良い結果につながりやすいです。

5個が難しい場合は、3個を目指します。 3個あれば、ある程度はばらつきを考慮できます。

時には、1個ずつしかデータがない場合もあります。 その場合は、データが増えて状況が詳しくわかって来た時の行動を想定しておきますし、 1個のデータの背景や事情を、できるだけ把握しておくようにします。

統計的な決め方

過去のデータや、少量のデータから平均値や標準偏差の仮の値を求めておくと、 データの数で、 検出力 や、 区間推定 の区間がどの程度変わるのかがわかります。

その調査として意味のある結論を出すためには、検出力や区間がどうなっている必要があるのかを見積もって、データの数を決めます。

このあたりの詳しい話は、「 サンプル数の統計的な決め方 」のページにあります。



データ(N数)は、いくつ取れば良いのですか?

参考文献

統計的な決め方

マーケティング・リサーチ入門」 星野崇宏・上田雅夫 有斐閣 2018
サンプルサイズを決める方法には、「検出力不足に基づく方法」と「信頼区間に基づく方法」がありますが、 マーケティングの実務では統計的な検定の議論はあまりしない、として、信頼区間を使う方を紹介しています。
ひとつの比率について信頼区間を求める場合で、参照できる比率がなければ、信頼区間が最大になるのは、比率が0.5の時なので、0.5を使っています。
ちなみに比率の標準偏差というのは、
「p/(1-p)/n のルート」で、計量値の標準偏差とは違います。
比率の差の区間推定の話もあります。


P値 その正しい理解と適用」 柳川堯 著 近代科学社 2018
検証的な研究の時には、サンプルサイズの検討が必要としていて、連続データや2値データの検定ごとに、決定方法を紹介しています。


実務的な決め方

p値とは何か 統計を少しずつ理解する34章」 Andrew Vickers 著 丸善出版 2013
サンプルサイズの設計については、統計学的な観点よりも、コストや倫理の観点で、サンプル数を増やしにくい場合に、実験で確認したいこととのバランスを取るために必要



順路 次は サンプル数の統計的な決め方

データサイエンス教室