トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

データ探索からのデータの利活用

「データは大量にある。 これは宝の山かもしれない。」ということで、 データの利活用 が始まることがあります。


長所

ビッグデータを扱うスタートとして始めやすい。

すでにデータがあるということなら、とりあえずの材料はあるということなので、スタートはしやすいです。

短所

何も出て来ないことがある。

「たくさんのデータ」という認識が、誤解や過度な期待につながることが多いようです。 どんなにたくさんのデータがあっても、何の役にも立たない事はあります。

業務担当者にとっては、当たり前のことしか出て来ないことがある。

データ分析の手法を当てはめて見えて来ることは、その業務でよく起きていることです。

たいていの場合、普段その業務をしている人にとっては、当たり前のことを、グラフや数式が示しているだけのことは、よくあります。

ビッグデータへのアプローチ

今までは何に利活用されていたのか?

「たくさんのデータ」と言われるものは、何かの理由があって集められているのが普通です。 そのため、すでにどこかで利活用がされているのですが、 「利活用しよう!」と提案をした方や、自分が知らないことは、よくあります。

こんな時は、「そもそも、そのデータは何のためのもの?」というところからスタートして、データの意味の理解が深まると、 新しい使い道のアイディアにつながることがあります。 また、そのデータが集められている理由と、実際のデータの関係を見直すことで、もともとの利活用が改善できることもあります。

ビッグデータの中のスモールデータの活用

例えば、9か月分のデータがあったとします。 3か月に1回起こる現象なので、その中には、注目したい現象が3回分含まれていたとします。

そのデータが1時間間隔で記録されていたすると、1日に24個あるので、9か月分となれば、24×9×30 = 6480で、 それなりの量のデータになります。

扱う現象によっては、「現象発生の時と、発生していない時」という分け方をして分析できることもあります。 こういう時は、発生した時が3個で、発生していない時は6000個以上あるデータの分析になります。

しかし、発生までの変化の仕方に意味がある時は、変化の仕方は3回分なので、「データは3個しかない」という状況と言えます。

irisのような、データ分析のサンプルデータでは、データが10行あれば、「n = 10」として扱って問題はないです。 ところが、例えば、 センサーデータ では、行数とn数は一致しないことがあります。 データの数と、データが表す現象の数が違っています。

この場合は、3回分について、統計学ではなく、その現象自体を科学的に分析するデータとしてアプローチしたり、 もっとたくさん集めて、5回、10回分と増やしていくアプローチがあります。



データの利活用 入門


順路 次は 問題解決からのデータの利活用

Tweet データサイエンス教室