トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

データベースからのサンプリング(1次データの作成)

このページは、 センサーデータデータベース からサンプリングするための話です。 このページでは、データベースからサンプリングしてきたデータを「1次データ」と呼びます。

センサーデータとして、例えば、1秒おきの電圧のデータが、10年分あったとします。 10年分ということは、
60秒 × 60分 × 24時間 × 365日 × 10年 = 315360000
なので、だいたい3億個のデータがあります。

サンプリング のページに書きましたが、グラフでデータを眺める時のデータ数は、1万個(1万行)が目安です。 サンプリングは、「この3億個から、どうやって1万個を選び出すか?」という話になります。 筆者の経験の範囲になりますが、たいていのデータ解析では、1万個の1次データで用が足ります。

サンプリングの方法

サンプリングの方法として、いくつか例を挙げてみます。 その解析の目的によって、適切な方法は違っています。 有意選出法のバリエーションが多いです。

おおまかな変化を調べるためのサンプリングは、そのデータの素性をあまり知らなくても、できる事が多いです。 短期間や瞬間的な変化の解析では、その現象の知識や、細かな配慮が必要です。 例えば、装置の電圧のデータでしたら、その装置の使い方等を、頭に入れておくと、良いサンプリングができます。




順路 次は 1次データの解析

Tweet データサイエンス教室