サンプリングは、できるだけ少ないデータで、全体を知るための方法です。 身近な例では、選挙の結果速報があります。 開票が始まってすぐに当選確実の発表があり、いつも驚かされます。
サンプリングは、選挙速報のための アンケート や、視聴率の調査のように、社会を調査する時の方法として、使われているのが有名かもしれません。 こうした方法は、少ない測定の結果から、全体を推測することによって、測定のための時間や費用を節約するために使われます。
今の世の中では、 測定 から始めなくても、解析したいデータが データベース の中に入っているものだけで済むこともあります。 しかし、測定のためのサンプリングとは異なる理由で、 サンプリングの知識は必要です。 データベースからのサンプリングがあるためです。
サンプリングには、「どのようにサンプリングするか?」と「どのくらいサンプリングするか?」という2つの観点で決まってきます。
筆者の経験の範囲になりますが、 データベースのデータを無計画にごそっと持って来て、 それを 多変量解析 や データマイニング のソフトに放り込んでも、何かの役に立つような結果は、出て来ません。 その前に、処理しきれなくて、パソコンが固まることもありますが。。。
データベースからデータを持って来て、データを解析することが一般的になっていますが、 サンプリングの目的は下記の4点です。
センサーデータ (時系列データの1種)をデータベースからサンプリングする方法については、 1次データの作成と解析 にまとめました。
順路 次は サンプリングの種類