トップページ | データサイエンスの失敗事例集 | このサイトについて

スモールデータで、ばらつきの分析

工場では、品質のばらつきを小さくすることが、テーマになることが多いです。

ここでは、濃度の誤差の改善の話です。

この時、 濃度の誤差についての誤差の伝播 の定式化にトライしました。 偏微分があるので、式の導出を丁寧にする必要があり、それをEXCELの関数にする時も間違わないように、丁寧にする必要がありました。 巨大で複雑な関数ができました。

実測値を代入したところ、驚くほど合ったので、考え方も作業も、間違ってないことが確認できました。

ただ、よくよく調べると、いまいち合いませんでした。 誤差の伝播の式を使うと、例えば、「3つの標準偏差がある時、2つを代入して、残りの1つの推定値を求める」という使い方ができるのですが、推定値と実測値が0.2くらい、どうしても合いませんでした。

数字が合わない原因

まず、「計算式のどこかが間違っているのでは」と思いましたが、いくら確認しても、間違いはないようでした。

「計算は正しいのに、数字が合わない」ということが確認できたので、「実測値の誤差が大きいのでは?」という仮説を思い付きました。

そこで、標準偏差の信頼区間を調べてみました。 「標準偏差の信頼区間」というのは、世の中にないので、分散の信頼区間から推測することにしました。

その結果、 「 標準偏差の信頼区間は、けっこう広い 」ということがわかり、仮説が当たっていました。

数字が合わない理由がわかりました。

ついでにわかった事

最初は、濃度の測定精度も疑っていたのですが、計算が合わない原因がサンプル数が少ない事だとわかったので、「濃度の測定は、十分な精度で測定できている」という疑いが消えました。

濃度の測定精度の改善も、いずれは必要かもしれませんが、さしあたっては問題でないことがわかりました。

その後

濃度の実験データは、ひとつの条件ごとに、n=10にしました。 理想的には、n=50くらい欲しいのですが、データ1個を得るのに、最大で30分くらいかかるので、n=10が限度でした。

精度が粗いのですが、濃度の改善のために、何をしなければいけないのかは、n=10でもわかりました。

ただ、グラフの局所的な部分を見ると、仮説と逆転している部分がありました。 n=10では、そうなってもおかしくないので、そこは注目して欲しくないところでした。

しかし、関係者の中には、そこがどうしても気になって、「いまいち納得できない結論」という印象を持つ人がいました。



データサイエンス教室