トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

異種データの紐付け

データリテラシーのページで、データをつなぐことについて、簡単に説明しています。データがつながると、いろいろなことの関係が分析できるようになります。

このページのタイトルの「紐付け」というのは、データをつなげることを指しています。

データの紐付けは、同じデータベースの中のデータについて、キーになる項目を使って紐付ける方法が一番簡単です。リレーショナルデータベースでは、よく知られています。また、EXCELだとvlookup関数でできます。

異種のデータを紐付ける場合は、特徴量エンジニアリングをしてからでないと、紐付けができないことがあります。また、特徴量エンジニアリングをすることで、分析できることが大きく広がります。

異種データの紐付けについて、このページでは、従来の解説の範囲とも合わせながら、考え方を整理してみました。

特徴量エンジニアリングをするデータ解析の流れ

まず、このページの話の前提として、データ解析の実際の流れは、図のような感じです。ここでは、気温と売上の関係を調べるための解析を例にしてみました。

気温のデータと、売上のデータは情報源が別だったとします。気温は、1時間毎のデータで、売上は、1日毎のデータだったとします。

こういうデータの場合、解析で知りたい事と、データの中身を比べて、どのようにするのかを決めますが、ここでは、気温も1日毎のデータに加工するとします。こうすると、気温のデータと、売上のデータの紐付けができるようになります。

紐付けされたデータができれば、ここからが、いわゆるデータ解析になって、「気温の高い日は、売上が高い」などの解析結果を出す事ができます。
データ解析の流れ

データの形式

準周期データの分析のところで、１次から３次までのデータ形式の話を書きましたが、データの形式の呼び方は、このページの例にも当てはまります。
データ解析の流れ

よくある誤解

データサイエンスへの誤解

「統計学、データマイニング、機械学習、ディープラーニングといった手法を知っていれば、データ分析ができる。」、という誤解は、よくあるようです。

しかし、これらの手法は表形式になっている状態のデータに使うと有効な手法なので、１次データの状態で、別々の形になっているデータの両方を合わせた分析ができるようにはなっていません。

こうした分析をしたいのなら、３次データの形まで進めておく必要があります。

人工知能への誤解

上記では、「気温も1日毎のデータに加工する」と、さらっと書きましたが、「最高値、平均値、最低値、上昇速度」など、どういう形にまとめるかは検討する必要があります。また、１時間毎のデータについて、24時間全部を集計するのか、営業時間や、朝の時間に限定するのか、といった事も検討する必要があります。

この領域の中で、特に２次データを作るあたりは、実際のデータの内容や、解析の目的で、いくらでもバリエーションがありますが、世の中であまり話題になりません。話題にならないのは、スマートな理論や、手順で表現できませんし、泥臭い作業も必要になる点かと思います。

「気温」や「売上」といった身近な数字であれば、どのようにデータを加工すれば良いのかは、よく考えればわかることもあります。しかし、機械が出力するデータや、高度な測定をして得られたデータなどについては、データの意味がわからないところからスタートすることがあり、考えればわかるようなものではないです。調査したり、有識者に聞いたりする必要があります。

「いくらでもバリエーションがある」という点については、「今のコンピュータなら、あらゆるパターンを出して、一番説明能力のあるパターンを採用すれば良いのではないか？」や、「人工知能なら、一番良いパターンを見つけられるのではないか？」、といった意見をいただくことがあります。

しかし、ここでポイントになって来るのは、問題の範囲の「定義」や「定型化」の作業ですので、少なくとも今の人工知能で扱える話ではないと思っています。

センサーデータの２次データの例

このサイトでは、センサーデータの２次データを作る時の例として、２次データの解析のページがあります。この例は、何か特別な種類のセンサーデータの話ではなく、時系列データ全般にも使えます。

一筋縄ではいかない、ややこしい話になって来るのですが、ここを通り過ぎると分析できる内容が広がります。

順路次はデータの確からしさ

杉原データサイエンス事務所によるコンサルティングとセミナー