トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

サンプリング

サンプリングは、できるだけ少ないデータで、全体を知るための方法です。 身近な例では、選挙の結果速報があります。 開票が始まってすぐに当選確実の発表があり、いつも驚かされます。

サンプリングは、選挙速報のための アンケート や、視聴率の調査のように、社会を調査する時の方法として、使われているのが有名かもしれません。 こうした方法は、少ない測定の結果から、全体を推測することによって、測定のための時間や費用を節約するために使われます。

今の世の中では、 測定 から始めなくても、解析したいデータが データベース の中に入っているものだけで済むこともあります。 しかし、測定のためのサンプリングとは異なる理由で、 サンプリングの知識は必要です。 データベースからのサンプリングがあるためです。

データへのアプローチ 「どのようにサンプリングするか?」

サンプリングの種類

サンプリングのポイントは、層別、クラスター化、無作為化と言われています。

データベースからのサンプリング

筆者の経験の範囲になりますが、 データベースのデータを無計画にごそっと持って来て、 それを 多変量解析データマイニング のソフトに放り込んでも、何かの役に立つような結果は、出て来ません。 その前に、処理しきれなくて、パソコンが固まることもありますが。。。

データベースからデータを持って来て、データを解析することが一般的になっていますが、 サンプリングの目的は下記の4点です。

センサーデータ (時系列データの1種)をデータベースからサンプリングする方法については、 1次データの作成と解析 にまとめました。

データの数 「どのくらいサンプリングするか?」

統計的な決め方

過去のデータや、少量のデータから平均値や標準偏差の仮の値を求めておくと、 データの数で、 検出力 や、 区間推定 の区間がどの程度変わるのかがわかります。

その調査として意味のある結論を出すためには、検出力や区間がどうなっている必要があるのかを見積もって、データの数を決めます。

実務の場合

筆者の実務経験で言えば、何かを比べたい場合は、比べたいもののデータを5個ずつ集めます。

5個集めてみて、ばらつきが大きくて判断に迷いそうなら、10個ずつ集めます。 これくらいのデータの数で、差が見えるかどうかが、その仮説や対策に目に見えた効果が期待できるかどうかの目安になります。

ばらつきが大きいと、とにかくたくさんデータを集めて、分布の形をはっきりさせたい気持ちになることもありますが、 はっきりしたところで、結論が変わるものでもありません。

もっと何かをするのなら、ばらつきが大きいことの原因を調べ始める方が、良い結果につながりやすいです。

5個が難しい場合は、3個を目指します。 3個あれば、ある程度はばらつきを考慮できます。

時には、1個ずつしかデータがない場合もあります。 その場合は、データが増えて状況が詳しくわかって来た時の行動を想定しておきますし、 1個のデータの背景や事情を、できるだけ把握しておくようにします。



参考文献

データへのアプローチ 「どのようにサンプリングするか?」

生のデータを料理する」 岸野洋久 著 日本評論社 1999
親しみやすいタイトルですが、中身は難解です。 実際の調査と理論の結び付きが、しっかりしています。


データサンプリング」 新保雅一 編 北田修一・新保雅一・田中昌一・宮川雅巳・三輪哲久 著 共立出版 2002
データサイエンス のシリーズ本の第2巻です。
海の生物の数や成長の調査方法と、 実験計画法 の話に大きく分かれています。 後者については、 品質工学パラメータ設計 の章もあります。


センシングの基礎」 山崎弘郎 著 岩波書店 2005
センサーそのものの原理の話もありますが、センサーのデータがどのようなもので、どのように扱うのかの話も多いです。
サンプリング定理 :  もっとも高い周波数の少なくとも2倍の周波数でサンプリングすれば、不連続な時系列データから、 完全にもとの信号が再構成されるので、情報が失われる事はない。 空間的にも、空間周波数を考えれば、この定理が使える。
サンプリング定理は、本当は連続量なものを間欠データでしか見れないというセンシングの性質があっても、大丈夫な事を言っている。
センサーの配置を決める時にも役立つ定理です。


データの数 「どのくらいサンプリングするか?」

マーケティング・リサーチ入門」 星野崇宏・上田雅夫 有斐閣 2018
サンプルサイズを決める方法には、「検出力不足に基づく方法」と「信頼区間に基づく方法」がありますが、 マーケティングの実務では統計的な検定の議論はあまりしない、として、信頼区間を使う方を紹介しています。
ひとつの比率について信頼区間を求める場合で、参照できる比率がなければ、信頼区間が最大になるのは、比率が0.5の時なので、0.5を使っています。
ちなみに比率の標準偏差というのは、
「p/(1-p)/n のルート」で、計量値の標準偏差とは違います。
比率の差の区間推定の話もあります。


サンプルサイズの決め方」 永田靖 著 朝倉書店 2003
サンプルサイズの決め方だけで1冊になっている貴重な本です。
検定にはいろいろな分布を使うものがありますが、 それらについて、別々に、サンプルサイズの決め方がまとまっています。
ちなみに、ネットにはこの本の内容をExcelで実行するためのページもあります。
永田靖著「サンプルサイズの決め方」―補助資料―Excel による検出力とサンプルサイズの計算 https://www.yukms.com/biostat/haga/download/nagata-sample-size.htm




順路 次は 層別サンプリング

Tweet データサイエンス教室