トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

実験の再現性問題

実験をして、「この条件なら効果がある!」となったものの、後日、同じ実験をしたら、「結果が違う!なぜだ?」となることがあります。

実験の再現性問題が、大きな問題になる時

学術論文は、後世の人も参考にする資料になりますが、かなりの割合で、再現性の問題が起きているそうです。

製造業関係では、製品開発の時に、「この条件で作れる」となったのに、工場で量産を始めたら再現しないことがあります。 最初はできていたのに、ある時からできなくなることもあります。

機械学習 の分野で、 モデルの劣化 と呼ばれている問題も、再現性問題の一種です。

再現性問題の原因

再現性問題の原因として、「データの捏造」、「都合の良いデータだけを資料に使った」といったモラルの問題であることもありますが、 以下では、それ以外についての考察です。

確率と実験の関係

再現性の問題について、統計学を知っていると、「たまたま良いデータが取れた時のデータで、研究をまとめたのが原因だ」という考え方ができます。

しかし、筆者の経験の範囲の話になりますが、「実験した時は、たまたま良かった」ということはあまりないです。 実験する人を困らせるのは、「ばらつく可能性も考慮して、実験の期間や、サンプル数を決めて実験した。 しかし、その期間の後の実験では、考えられないことが起きた」という事象です。

大学や、研究機関などの、実験を専門にしているところでは、実験で使っているものや、実験手順を、詳細に管理しています。 実験の内容は、シンプルになるようにします。 そういうところでも、実験結果が同じにならないことは、起きます。

工場の中で実験する場合でも、手順の標準化などをして、実験の条件は、できるだけ詳細に管理しますが、 うまく行く時と、行かない時の違いは、完全に解明できていないことがあります。 工場で勤務していると、うまく行っていたことが、急にできなくなって、「なぜだ!?」と調査を始める仕事が、よくありました。

工場では、人・物・環境が絶妙なバランスを取っていて、物を作っています。そのどこかに変化が起きると、思わぬところに影響が出ます。 「変更管理」として、何かを変える時には、厳しくリスク管理をしますが、それでも起きることがあります。

複雑で大きなものの一部を切り出して、切り出したものに対して法則を見つけようとするという方法論の難しさと思います。

チャンピオンデータ

行動科学 的な考え方になるのですが、人間には、とても良い事があると、「また、再現するに違いない」と考えたり、一番良い時を基準にして、今を評価するクセがあるようです。

とても良い時のデータは、「チャンピオンデータ」と呼ばれます。

チャンピオンデータだけを見せて、「すばらしい条件が見つかった!」、「開発は成功した!」といった報告になっていることが、時々、あります。

ちなみに、行政が決める基準に、「トップランナー制度」と呼ばれるものがあります。 これは、調査した時点で、一番性能が高い製品を基準にして、他の製品に対して、対策を促す方法です。 チャンピオンデータの活用方法になっています。

工場では、同じ製品を同じように作っているとしても、品質に差が出ます。 チャンピオンデータが出た時との違いを調べると、品質管理に役立ちました。

再現性問題のための品質工学

再現性問題は、統計学の考え方や使い方と密接な関係のある問題ですが、統計学の中で議論しても、具体的な対策は出しにくいようです。

品質工学には再現性問題への対策が、いくつかあります。

制御工学 には、ロバスト制御があります。 外乱の影響が受けにくいよう設計をします。 品質工学による対策は、制御工学と方向性は似ていますが、方法は比較的シンプルで、汎用的です。

ちなみに、 機械学習 には、 ロバスト推定 があります。 モデルが外れ値の影響を受けにくいようにして作る方法です。

また、 正規分布の理論のロバスト性 があるため、再現性問題は、分布の形の問題ではないです。

機能性の評価

品質工学では、作りたい品質の核になっている原理原則を「機能性」と呼び、そこがロバストになるように作りこもうとします。 機能性の評価 と呼ばれます。

誤差因子 をあえて大きく振って、極端な状況でも、欲しい機能が実現することを目指します。

世の中には、「風が吹けば、桶屋がもうかる」のように、 因果の基本原理 がわからないけれども、「とにかく、こういう事が起きているのだ」という研究があります。 基本原理は、後からわかる事もあるので、こういった研究も大事ですが、機能性の評価は、基本原理をしっかり把握していくための評価です。

統計的な検定は使わない

品質工学では、 SN比 と呼ばれる、独自の評価指標で、実験を評価します。 これは、再現性問題への対策としてだけでなく、 統計的な検定 が起こしている弊害の回避にもなっています。

この点の詳細は、 スモールデータにおける、ばらつきの違いの評価 のページにあります。



参考文献

瀕死の統計学を救え! 有意性検定から「仮説が正しい確率」へ」 豊田秀樹 著 朝倉書店 2020
有意性検定の問題点がいろいろ書かれていますが、p値がサンプル数で変わってしまう点については、何度も力説されています。
論文に書かれている実験を再現できない論文の割合が非常に高いことと、有意性検定の問題点を結び付けた話もあります。




順路 次は 品質工学の工程管理

データサイエンス教室