トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

ダークデータのイメージ

バッドデータのデータ分析 のページでは、データからわかる事は、実際に起きている事のごく一部という話をしています。

ダークデータというのは、見えないデータなのですが、「見えません」では、何をどのように気を付ければ良いのかが説明できないので、 筆者のイメージを絵にしてみました。

ダークデータの範囲

Image of Dark data
ここでいうダークデータというのは、起きている事の中で、「データ」ではわからない範囲です。

ダークデータのイメージ

Image of Dark data
見えないダークデータを、絵にしてみると、筆者の場合はこんな感じです。

筆者の持っているイメージですが、 ダークデータは、10年くらいの間で大きく変化しています。

図では、色にも変化を付けました。 色は、「数字としては同じだけれども、意味合いに変化が起きている」という感覚を色で表してみたものです。

機械学習の難しさ

機械学習 では、データを取ってモデルを作ってから、モデルを利用していきます。

ダークデータは10年くらいの期間で大きく変化するものですが、モデルを作るために収集するデータの期間は、 短い場合は、数時間、長くても3か月くらいです。

「モデルの劣化」と呼ばれることが多いようですが、ダークデータの変化によって、モデルの精度がだんだん変わって行きます。

では、「10年分くらいのデータを用意すれば良いのか」、というと、そうでもないです。 短い期間では、良いモデルが作れたとしても、長い期間では、モデルが決まらないことは、よくあります。 こうした場合は、「短い期間のモデルは作りっぱなしにしないで、更新を続ける」という対策が必要になります。

制御や管理では何をしているのか

工場では、機械の場合、いろいろな設定を変えて、ベストな条件に日々、調整することがあります。 人の場合は、力加減を調整したりします。

こうすることで、柔軟に対処していきます。

工場で起こる問題

分野にもよりますが、一般的な工業製品は、次々とモデルチェンジをしたり、新製品を開発します。 この変化は、短い場合で数か月、長くて数年の間隔で起きます。

このため、ダークデータに変化が起きているとしても、その変化の影響が出始める前に、その生産は終わるため、問題が起きにくいです。

ところが、「最近は作っていなかったが、注文があったので、3年ぶりに作る」と言った場合は問題が起きる事があります。 過去にうまく作れていた時と、まったく同じ材料を使い、まったく同じ条件で作っているはずなのに、「不良品ができてしまう!」という事件が起きます。

なお、こうした問題が起きた時の対応ですが、筆者の場合は、生産方法や測定方法について、「何をどうやっているのか」という点を、 原理原則を洗い出して、順番に確認して行くことで問題解決につなげるしかありませんでした。

何十年も同じ工場で経験を重ねて来た人に、「工場は魔物だ」と、以前教えていただいたことがあります。 データサイエンス 的に言うなら、ダークデータはデータサイエンティストにとって魔物です。






順路 次は データサイエンスの数理

Tweet データサイエンス教室