トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

差の意味で検定を補強

このページの話は、統計学ではないですが、統計学の 検定 を実務の中でする時に、ポイントになります。

平均値の差の検定 が一番わかりやすいので、平均値の差を題材にしていますが、他の検定でも考え方は応用できます。

「差の意味」とは

検定を実務で使う時にありがちなのが、「有意な差があった。だから効果があるのだ。」や「有意な差がない。だから効果がない。」という話だけをしている場合です。

検定では、「有意」という言葉を使っていますが、これは統計学的な意味についてだけです。 ビッグデータの統計学 のところに、「p値で有意かを判断する従来の検定はおかしい」という話があるように、 これはこれで、考えるべきところはあります。

平均値の差の検定をする時に、補強になるのは、現実的な意味についてです。

現実的な意味の種類

差の現実的な意味は、1種類ではないです。

有効数字・分解能

有効数字や分解能は、例えば、「この測定では、0.1よりも細かい大きさは測れません。」というものです。

信頼区間に最小値がある統計学(統計学の不可能性) のページにもありますが、有効数字や分解能を考慮すると、統計学的ではない観点で、「差はない」と言えるようになります。

ただし、この考え方には異論があるようで、 「サンプル数が非常に多くその平均値を計算すれば、0.1刻みが限界の測定システムでも、0.54667のような細かい桁まで精確に測れる。」と考える方もいらっしゃるようです。

よく起きている差

対策前と対策後で、平均値の差が0.5あったとします。 検定の結果だけでなく、ヒストグラムを見ても、明確に分かれていたとします。

データ分析をする人が、そのデータに普段関わっていないと、「差があった!効果があった!」となるのですが、 そのデータに普段から関わっている人にとっては、「そのくらいの差は、よく起きているよ」となることがあります。 長い期間で緩やかに起きているような変化は、経験や記憶としては残っていても、後から検証することが難しかったりしますが、 経験や記憶の観点で、本当にその対策の結果と言えるのか、という確認が役に立つことがあります。

経済的に意味のある差

統計学的には意味のある差であったとしても、経済的に意味があるかどうかは別です。

例えば、不良品を処理する時の手間が負担になっているものの、1個不良品が発生しても、100個発生しても、手間は変わらないのなら、 経済的には意味のない差になります。 この場合は、不良品を0個まで減らせて初めて、意味のある差になります。



順路 次は 分散分析

Tweet データサイエンス教室