トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

データサイエンス教室

データサイエンスの広大な未開拓地

ビッグデータ、IoT、データサイエンティスト、MtoM、ディープラーニング、AI、などなど、 2011年頃から、一般向けの解説記事でも、データの記事で盛り上がってます。

よく言われる事との違い のページは、「データ解析の目的」という観点で、こういった一般論と、実際の違いをまとめてみたものです。

このページは、「データの形式」という観点で、一般論との関係をまとめてみたものです。 実務で一番大変な部分が、ほぼ手つかず、という感じです。

データの使い方の種類

センサーデータ の使い方には、データをそのまま使うものと、加工して使うもののがあります。

そのまま使うものとしては、 制御 や監視があります。 データというよりも、「信号」という感じで使われています。 時系列の折れ線グラフにして、変化の様子を見たりします。

加工する場合は、他のデータとの関係を見るために加工します。 ちなみに、単位を換算したりすることも「加工」ですが、この程度の加工では、「そのまま使う」と使い方が変わらない事もあります。

そのまま使っても、加工しても、「データ解析」と呼ばれますが、このページで着目しているのは、加工する場合です。

加工するデータ解析の流れ

まず、このページの話の前提として、加工するデータ解析の実際の流れは、図のような感じです。 ここでは、気温と売上の関係を調べるための解析を例にしてみました。

気温のデータと、売上のデータは情報源が別だったとします。 気温は、1時間毎のデータで、売上は、1日毎のデータだったとします。

こういうデータの場合、解析で知りたい事と、データの中身を比べて、どのようにするのかを決めますが、 ここでは、気温も1日毎のデータに加工するとします。 こうすると、気温のデータと、売上のデータの紐付けができるようになります。

紐付けされたデータができれば、ここからが、いわゆるデータ解析になって、 「気温の高い日は、売上が高い」などの解析結果を出す事ができます。
データ解析の流れ

データの形式

センサーデータの解析 のところで、1次から3次までのデータ形式の話を書きましたが、 データの形式の呼び方は、このページの例にも当てはまります。
データ解析の流れ

最近の流行語と、加工するデータの解析の流れとの関係

「最近の」というのは、このページを書いている2016年頃の話です。 少なくとも2010年代の間は、このページの状況は、変わらないのではないかと思っています。

例外はいくらでもあると思いますが、ざっくりと言えば、 「ビッグデータ」、「IoT」、「センサーデータ」、「MtoM」、「データレーク」をキーワードにしている解説記事では、 1次データの話が中心になっている事が多いようです。 制御 や監視の分野は、どんどん変わって来ています。

また、「 統計学 」、「 データマイニング 」、「 機械学習 」、「 データサイエンティスト 」、「 ディープラーニング 」をキーワードにしている解説記事では、 3次データを使って、解析をする時の話が中心になっている事が多いようです。 ちなみに、3次データの形にまとまっていないデータには、これらの手法はあまり役に立たないのですが、 それを知っている方は少数派のようです。 一昔前のデータ解析では想定しなかったタイプのデータが登場した事が、役に立たない理由です。 しかし、これらの手法が、どんなタイプのデータにも当てはまるという誤解は、よくあるようです。
データ解析の流れ

データサイエンスの広大な未開拓地

流行語がカバーしていない領域、つまり、世の中で注目されていない領域があります。 注目はされていませんが、実際は、欠かすことのできない領域です。

上記では、「気温も1日毎のデータに加工する」と、さらっと書きましたが、 「最高値、平均値、最低値、上昇速度」など、どういう形にまとめるかは検討する必要があります。 また、1時間毎のデータについて、24時間全部を集計するのか、営業時間や、朝の時間に限定するのか、といった事も検討する必要があります。

この領域の中で、特に2次データを作るあたりは、実際のデータの内容や、解析の目的で、いくらでもバリエーションがあります。 世の中で注目されないのは、 スマートな理論や、手順で表現できませんし、泥臭い作業も必要になる点かと思います。

「いくらでもバリエーションがある」という点については、 「今のコンピュータなら、あらゆるパターンを出して、一番説明能力のあるパターンを採用すれば良いのではないか?」や、 「 人工知能 なら、一番良いパターンを見つけられるのではないか?」、といった意見があると思います。 (多変量解析を勉強し始めた頃の筆者はそうでしたので、、、) しかし、少なくとも、今、目の前にある問題を何とかする方法にはならないと思います。 測定 という観点や、 現実と統計モデルとのギャップ という観点が理由になります。

このサイトでは、センサーデータの2次データを作る時の例として、 2次データの解析 のページがあります。 この例は、何か特別な種類のセンサーデータの話ではなく、 時系列データ全般にも使えます。

このような感じの少し汎用性の高い話が増えれば、体系化もできるのではないかと思います。 このサイトもそういう風になって行くと良いのですが、今のところ、センサーデータの例だけです。

特徴量エンジニアリングとデータフィジクスによる、未開拓地の開拓

このページの内容は、以前は「前処理」の一部としか考えられていませんでしたが、 2017年頃から「 特徴量エンジニアリング (Feature Engineering)」という名前で呼ばれるようになって来ています。

また、筆者は、 データフィジクス(データ物理学) の確立も必要と考えています。





順路 次は データベース

Tweet