トップページ | データサイエンスの失敗事例集 | このサイトについて

膨大な量の実験をしたのに無駄になる

データ(N数)は、いくつ取れば良いのですか? のページにもありますが、同じ条件のデータは、5個くらいあれば、さしあたっての調査は完了することが多いです。

ところが、「100個、できれば1000個くらい欲しい」という注文をする方がいらっしゃいます。

納得していただけないので、要求通りに実験したものの、5個くらいでわかることと、ほとんど変わらなかったことがあります。

背景

誤差 には、偶然誤差と系統誤差がありますが、この区別をしていないと、「データはたくさん必要」と、なりやすいようです。

「試作や、製品開発の時は、うまく行っていたのに、次の段階になったら、製品化が難しくなった」という経験があると、 「試作や、製品開発の時に、1000個くらいデータを取らなければいけない」という考え方になるようです。

しかし、同じ条件で何度も実験してわかるのは、偶然誤差がほとんどです。 次の段階になったら、うまく行かなくなるような状況は、系統誤差によるものが多いので、1000個データをとっても、評価できないです。

対策

筆者の場合、 予測区間 というものがあることを伝え、予測区間で表現することで、「とにかくたくさんデータを取って」という要求を回避するようにしています。



データサイエンス教室