トップページ | 目次ページ | このサイトについて | ENGLISH

データサイエンス

データそのものを重視する科学は、「データサイエンス(Data Science)」と呼ばれています。

データは、科学やビジネスで、記録や論拠として使われます。 もともと「データ」は重要なものでしたが、 コンピュータで大量のデータを扱えるようになってきたこともあり、 データサイエンスは存在感を増しています。 例えば、科学的なアプローチの特徴である、「 仮説の設定 」は、データサイエンスによって、大きく進歩しています。

コンピュータはデータを扱う道具です。 統計学 はデータを要約するための理論です。 データが多いと、量を扱うことに注目して、コンピュータや統計学の話になりがちですが、 データサイエンスでは、ひとつひとつのデータの意味や質( メタ知識 )も大事です。

データの意味や質の重要さは、データがひとつしかない場合(n = 1)がわかりやすいかもしれません。 測定が非常に難しい場合や、過去に1回しか発生していない現象では、データがひとつしかない場合があります。 データがひとつしかなければ、コンピュータや統計学は不要です。 しかし、このデータを解釈したり検討したりするための何かは必要です。 データサイエンスは、その「何か」の部分もカバーします。

データサイエンスの種類

データサイエンスには、いろいろな切り口があります。 データサイエンスの段階や、データを使う目的の違いで分類してみました。 大まかなイメージとして、「データを集める」等の言葉を添えていますが、 各分野の実際の内容は、もっと豊富です。

多変量解析データマイニング は、 統計学 の一分野として分類することもできます。 このサイトでは、ブロックを分けています。

「データサイエンス」の3つの定義

「データサイエンスには3つの定義がある」と言えそうです。 どれも、「データサイエンス = 統計学+α」ですが、 「α」の中身や大きさが違っています。

2000年前後の定義

2000年前後の定義は、統計学からの発展形です。 統計学に、 統計学では見ていないもの、つまり、データそのものや、解析対象の現象そのものの理解を深めることを加えた学問を、 「データサイエンス」として提唱していました。

2000年前後の定義のデータサイエンスは、実務向きの学問を目指していると思います。

このサイトの定義

このサイトの定義は、このサイトを立ち上げる時(2007年)に、筆者が考えたものです。

このサイトでは、「データ+動詞」の形でデータサイエンスの体系を定義しています。 「データサイエンス」という言葉そのものに、できるだけ忠実になるようにしています。 価値工学 等では、製品の機能を定義する時に、「名詞+動詞」で機能を考えますが、 それに似ています。

「α」の割合がとても大きいです。 莫大な量のデータを扱う分野である「 シミュレーション 」を入れていますし、データを取る技術としての「 測定 」も入っています。 筆者の経験の範囲になりますが、 データを扱う現場では、「統計学は道具のひとつ」という感じなので、こういう定義にしています。

2013年頃の定義

2013年頃の定義では、「α」は、 機械学習 の理論や、 データベース 等のIT技術です。 この定義の特徴は、αだけでなく、データサイエンスの使い道にもあります。 ビジネス(特に マーケティング )に使う統計学が、「データサイエンス」と呼ばれていることも多いです。

この定義では、ビッグデータを扱ったり、機械学習やIT技術の最新のものを使う点も特徴です。

2013年頃の内容は、90年代後半に流行した「 データウェアハウス 」や「 データマイニング 」の、発展版としての一面も持っています。 「データに語らせる」や、「ビジネスには、データ解析が威力を発揮する」という内容は、当時も言われています。

「データサイエンティスト」とは

2013年の時点で、 「データサイエンティスト」は、「アーティスト(芸術家・パフォーマー)」や「アスリート(スポーツ選手)」と同じくらい広い意味で使われています。 「データサイエンティスト」の実際の意味には、下記のようなものがあります。 だいたいが、下記の内容の単独か、いくつかの組み合わせで使われています。

歴史的には、新しいタイプのデータで、新しいビジネスを生み出す人たちが「データサイエンティスト」を名乗り始めて、 その人のしている事を「データサイエンス」と考える風潮が起きて、2013年頃の「データサイエンス」の定義ができたようです。

データサイエンティストには、統計学やITのスキルだけでなく、現象の理解力やコミュニケーション力が必要と言われていますが、 これについても、歴史的な流れから来ています。

「データサイエンスの研究者」ではないので、 「サイエンティスト」という言葉に対しての、一般的な認識とは違っています。

米国では、こういった仕事をするのが、博士号を持っている人だったことや、 最先端の学問を使うことから、「サイエンティスト」を付けるようになったようです。



よく言われる事との違い

手法の使い分け

参考文献

「データサイエンス」の参考文献はとても多いので、 データサイエンスの本 のページに分けています。



順路 次は データサイエンスの道具(G7・W7・M7)

Tweet