トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

データの利活用の進め方

「データはたくさんある。これを利活用したい。」ということから始まり、その方法として データサイエンス人工知能(AI) が期待されているという話は、よく見聞きします。

下表の「モデルを使う利活用」がイメージされていることが一般的なようですが、それ以外もあります。 下記では、筆者の経験の範囲になりますが、それ以外の方について、まとめてみました。

「たくさんあるデータ」というのは、どんなデータか?

「たくさんのデータ」という認識が、誤解や過度な期待につながることが多いようです。 どんなにたくさんのデータがあっても、何の役にも立たない事はあります。

今までは何に利活用されていたのか?

「たくさんのデータ」と言われるものは、何かの理由があって集められているのが普通です。 そのため、すでにどこかで利活用がされているのですが、 「利活用しよう!」と提案をした方や、自分が知らないことは、よくあります。

こんな時は、「そもそも、そのデータは何のためのもの?」というところからスタートして、データの意味の理解が深まると、 新しい使い道のアイディアにつながることがあります。 また、そのデータが集められている理由と、実際のデータの関係を見直すことで、もともとの利活用が改善できることもあります。

たくさんではないかもしれない可能性は?

例えば、9か月分のデータがあったとします。 3か月に1回起こる現象なので、その中には、注目したい現象が3回分含まれていたとします。

そのデータが1時間間隔で記録されていたすると、1日に24個あるので、9か月分となれば、24×9×30 = 6480で、 それなりの量のデータになります。

扱う現象によっては、「現象発生の時と、発生していない時」という分け方をして分析できることもあります。 こういう時は、発生した時が3個で、発生していない時は6000個以上あるデータの分析になります。

しかし、発生までの変化の仕方に意味がある時は、変化の仕方は3回分なので、「データは3個しかない」という状況と言えます。

irisのようなに、データ分析のサンプルデータのようなものでは、データが10行あれば、「n = 10」として扱って問題はないです。 ところが、例えば、 センサーデータ では、行数とn数は一致しないことがあります。 データの数と、データが表す現象の数が違っています。

この場合は、3回分について、統計学ではなく、その現象自体を科学的に分析するデータとしてアプローチしたり、 もっとたくさん集めて、5回、10回分と増やしていくアプローチがあります。

モデルが役に立つか?

データサイエンスの仕事 のページにもありますが、 「データ分析とは、機械学習や数理のモデルを作ること」という説明がされることが、とても多いようです。

そのため、「AI導入プロジェクト」、「機械学習プロジェクト」、「データ分析プロジェクト」といったものが、 なかなか前に進まなかったり、成果につながりにくい場合の理由として、 「機械学習などの数理的なモデルを使って行く。」という考え方をしてしまっていることが、とても多いように筆者は推測しています。

モデル作りにこだわると、うまく行かない時に手詰まりになります。 しかし、モデル以外にも視野を広げると、データが利活用できることがあります。 例えば、「あるタイミングのデータだけを見る」といったことになります。 この発想をする時も、 データの数と、データが表す現象の数の違いがポイントになります。

「データはある」からではない場合

「データはある。さあ、どうする。」という状況の場合が、上記でした。

「解決したい問題や、達成したい課題がある。さあ、どうする。」の場合は、データの利活用の進め方は変わって来ます。

問題解決と課題達成のためのデータサイエンス のページに詳しい話がありますが、 この場合は、問題解決や課題達成を進めるための手順の要所要所で、データを利活用する進め方になります。

この時に、すでにある種類のデータではなく、新しいものが必要になることがあります。 ちなみに、新しいものを集めるために、必ずしも高価な投資が必要になる訳ではないです。 例えば、「家庭用の湿度計で、いろいろな天候の時の湿度を測ってみた」というだけで、テーマの成功につなげられることもあります。

「モデルが役に立つか?」の話にもつながるのですが、 「今はないけれども、必要なデータ」の案を、データの質や量も含めて、出して行きます。 「そういう作業は、 データサイエンス とは関係ないのでは?」という意見があるかもしれませんが、 データの質や量を考える時に、 統計学実験計画法 の知識が役に立ちますので、 データサイエンス とは、とても関係があるものと、筆者は考えています。



順路 次は データサイエンスの仕事

Tweet データサイエンス教室