トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

サンプリングの種類

統計的因果推論では、「ランダムサンプリングが理想で、現実はそれができないことが多いので、工夫する」という考え方をします。

均質なものを調べようとするなら、確かにそうかもしれませんが、そうではない場合は、調べたいものの特徴を考える必要があります。

サンプリングの種類

サンプリングのポイントは、層別、クラスター化、無作為化と言われています。

有意選出法 ：経験を踏まえて、全体をバランス良く表すデータを選ぶ方法
ランダムサンプリング ：無作為にデータを選ぶ方法。アンサンブル学習でも使われている。
多段サンプリング ：有意選出法の一種。層別を意識したサンプリングです。実験計画法は、多段サンプリングの一種です。

参考文献

「生のデータを料理する」岸野洋久著日本評論社 1999
親しみやすいタイトルですが、中身は難解です。実際の調査と理論の結び付きが、しっかりしています。

「データサンプリング」新保雅一編北田修一・新保雅一・田中昌一・宮川雅巳・三輪哲久著共立出版 2002
データサイエンスのシリーズ本の第２巻です。
海の生物の数や成長の調査方法と、実験計画法の話に大きく分かれています。後者については、品質工学のパラメータ設計の章もあります。

「センシングの基礎」　山崎弘郎　著　岩波書店　2005
センサーそのものの原理の話もありますが、センサーのデータがどのようなもので、どのように扱うのかの話も多いです。
サンプリング定理　：　もっとも高い周波数の少なくとも2倍の周波数でサンプリングすれば、不連続な時系列データから、完全にもとの信号が再構成されるので、情報が失われる事はない。空間的にも、空間周波数を考えれば、この定理が使える。
サンプリング定理は、本当は連続量なものを間欠データでしか見れないというセンシングの性質があっても、大丈夫な事を言っている。
センサーの配置を決める時にも役立つ定理です。

順路次は層別サンプリング

杉原データサイエンス事務所によるコンサルティングとセミナー