「膨大なデータのデータ分析」というと「 統計学 を使う」という話が世の中には多いです。 このサイトも例外ではないのですが、このページについては、統計学が主役にならなかった例になります。
統計学が直接的に役に立つことはなかったのですが、間接的に役に立っています。 データサイエンス と有識者の知識がうまくコラボレーションすることで、解決に結び付いた例です。
データの探索に有識者の知識を活用しますし、有識者の知識が引き出せるようなデータの見せ方を工夫します。 データを探索する時に、 「サンプリング はこのくらいしておけば、差の有無が確認できる」、「何が起きているのかを、はっきり見えるようにするには、このグラフを使う」、 といった事を考えるのに、データサイエンスの知識が役に立ちます。
なお、下記の例は、本当の工場のデータではなく、このページの説明用に作ったものです。
この例は、Good(良品)とBad(不良品)のそれぞれについて、Temperature(温度)の違いを調べたグラフです。
製品を処理する時の最高温度でどのように品質が変わるのかは、最高温度を決めた時にわかっていたので、最高温度を確認しようとした結果です。
2、3℃くらい差があれば、「やはり温度がおかしかった」となったのですが、データには差が見えませんでした。
通常なら、「温度が原因ではないから、温度以外の仮説を考えよう」となるところですが、この場合は、そうしませんでした。 それは「まったく差がない」というところに、むしろ不自然さを感じたからでした。
確認したところ、「不自然」というのは当たっていて、最高温度というのは設定値があって、その温度になるように制御されているものでした。 上記のグラフは、設定値通りに動いていることを確認したグラフというものでした。
ここまで来ると、「設定値通りに動いている。しかし、最高温度がずれることはあるか?」という問題になります。
ここまで問題を絞ることで、「温度計がずれているのでは?」という原因の仮説が出て来ました。 そして、いくつか追加の調査をすることで、温度計のずれが原因であることがわかりました。
答えがわかってしまうと、簡単な話だったように見えるかもしれません。 しかし、この問題は、長年この製品に関わって来た関係者が集まっても原因がわからず、大問題になっていました。
膨大なデータの中から、必要な情報を切り出して見える形にしたことが突破口になり、事実をひとつずつ確認することで解決につながりました。
この例は、Good(良品)とBad(不良品)のそれぞれについて、ある値の変化を調べたグラフです。
この問題が起きていた時は、良品と不良品ができる時の違いがわからず、関係者の悩みの種でした。 色々なデータについて、良品と不良品の違いがないかを探していたのですが、データには違いが見えませんでした。
ところが、ある時、このグラフを関係者で見ていた時に、ある人が異常に気付きました。
「この値は、2種類しかないはずなのに、こんなに色々な値が出ているのはおかしい!」 、という気付きでした。
色々な値になっていた原因を突き止めることで、当初の設計通りに品質が確保できるようになり、この問題は解決しました。
このケースも、膨大なデータの中から、必要な情報を切り出して見える形にしたことが突破口になりました。 そうすることで、有識者の知識がうまく活用されて解決につながりました。
順路 次は QC7つ道具