トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

3次データの解析

3次データは、センサーデータ、生産システムのデータ、言語情報、等、 異なるデータベースのデータを紐付けて作ったデータです。 この紐付けでは、センサーデータについては、 2次データ の形になっていると良いです。

良い3次データができると、散布図やヒストグラムが、見通しの良い解析手法になることがよくあります。

1対1の紐付けによる、3次データの作成

共通データを使った紐付け

共通データを使った紐付けは、紐付けの基本になります。 ちなみに、 リレーショナルデータベース の紐付けと同じやり方です。

例えば、2次データ同士のそれぞれがバッチを最小単位にしているデータで、 各行にバッチ番号が書いてあるのでしたら、 ExcelのVlookup関数を使ったりして、比較的簡単に紐付けできます。

時刻のデータを頼りにした紐付け

共通データがない場合は、時刻のデータを頼りにして、つなげます。 例えば、「製品の加工時刻と、検査時刻は、だいたい1時間ずれている」、といった、 メタ知識 を使います。

バッチのデータが1時間に1個しかないのでしたら、この方法で1対1の紐付けができます。

データの順番の知識を使った紐付け

このページの例のような工場のデータの場合、加工した順番と、検査した順番が違っている事があります。 それぞれに共通のデータや、時刻のデータもないと、紐付けはとても難しいです。

ただ、製品の流し方に決まりがあって、順番の変わり方が決まっている場合もあります。 そのような場合は、そのルールに合わせて、検査のデータを加工のデータの順番に並べ替えてから、紐付けることができます。

1対1の紐付けができない場合

3次データの作成は、1対1の紐付けが理想的です。

1対1の紐付けができなくても、工夫すれば3次データが作れる事もあります。

多対多の紐付け

例えば、バッチ番号の項目がなくても、生産した「月」が共通な事がわかっている時があります。 そうした場合は、月ごとに平均値を計算して、平均値同士を「月」で紐付けする方法もあります。

キーになる月が、1か月しかなければ、どうしようもないのですが、12か月分など、それなりに長い期間あるのでしたら、統計的な解析が可能になります。

「月」以外にも、「週」、「ロット」、等も紐付けに使える事があります。 「月」と「週」の両方があるのでしたら、「週」の方が、元の情報を有効に使えるので良いです。

1対多の紐付け

1つのバッチが、5個の製品で構成されていて、 5個全部を検査していたとします。 すると、1バッチに対して、検査工程のデータは、5個ありますので、 1対1で紐付けができません。

このような場合の紐付けは、解析の内容によって違います。

まず、5個分の検査データの平均値や標準偏差、等の統計量を求めて、1対1で紐付けする方法があります。

もうひとつは、バッチのデータの同じものを5行ずつ作って、そこに紐付けます。 バッチ全体の異常というより、バッチの中に異常値の製品ががあるようなケースは、こちらの方が良いです。

1次データへの紐付け

「センサーデータは2次データを紐付けると良い」、と書きましたが、 センサーデータの 1次データ を「多」のデータとみなして、1対多の紐付けをする方法もあります。

ただし、この方法では、バッチの特徴の違いが、うまく抽出できないことがあります。 また、解析結果が、考察につながりにくいこともあります。

共通データの作り方

「月」ごとに平均値を計算する時は、「月」の列があれば、Excelでしたら、ピボットテーブルを使ったりして、月ごとの平均値を計算できます。

「月」の項目がなければ、作る必要があります。 例えば、各行に、「2012/3/4 5:06」のような形式で時刻のデータがあるのでしたら、「201303」の形式の項目を作る必要があります。 筆者は、「=text(セル番号,"yyyymm")」という関数を使っています。

数理モデルを使った3次データの解析

3次データの形では、数理モデルを使った解析としては、 重回帰分析決定木 が活躍しやすくなります。

ただし、これらの手法では「時系列」の情報を入れにくいので、 普通の折れ線グラフも使った方が良いです。

紐付けの知識を使った解析

加工と検査で順番が異なる場合は、それぞれの順番にデータを並べて、それぞれを折れ線グラフ等で解析すると、 問題の原因が、加工にあるのか検査にあるのかを推測できる事があります。 問題になっている事象が連続して起きている工程の方が、原因の可能性が高いです。

もう一度、1次データの解析へ

3次データを解析すると、 1次データの解析 では、よくわからなかったデータの特徴がわかります。

3次データの解析結果を頭に入れながら、 もう一度、1次データを見直すと、 3次データでわかった事が、元のデータではどんな風に見えているのかがわかります。

センサーデータの解析 の最終的な結論は、3次データの解析だけでなく、1次データの再解析の結果も踏まえると、しっかりしたものになります。




順路 次は 逆時間集計

Tweet データサイエンス教室