杉原データサイエンス事務所のロゴ トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

サンプリングが生む逆説

統計学が生む逆説 の一種です。 一般的なデータ分析は、既にあるデータや、自分が持っているデータだけで進めます。 そういう時に起きやすいパラドックスです。

シンプソンのパラドックス

統計学や因果推論関係の文献で、よく紹介されます。

層別して出した結果と、層別せずに出した結果が矛盾する例です。 漏れなく、偏りのないデータの分析でも、間違った結論が出る可能性を示しています。

「矛盾している」で留まらずに、矛盾の原因を調べると、現象の理解が深まり、より良い分析になります。

生存者バイアス

有名な事例として、「生還した戦闘機で被弾が多い場所ではなく、生還した戦闘機で被弾していない場所を補強」というものがあります。

この事例では、まず、 「生還した戦闘機で被弾が多い場所は、被弾しても生還できる場所なので、補強しなくて良い」と考えます。

次に、「生還した戦闘機で被弾していない場所は、もしも被弾すると生還できない場所ではないか?」と考えています。

生存者バイアスの事例の補足

生還した戦闘機で被弾していない場所は、もしも被弾すると生還できない場所の可能性と、そもそも被弾する可能性が低い場所の可能性があります。

この事例の場合、生還した戦闘機で被弾していない場所というのは、エンジンや操縦室以外だったようです。

「生還した戦闘機で被弾が多い場所は、補強しなくて良い」という言い方をすると、奇異な感じがしますが、 「エンジンや操縦室が壊れたら、生還できないことを表している」ということなら、納得しやすいです。

生存者バイアスは、解釈のテクニックではなく、原理原則と照らし合わせて、実際に起きていたことを推測するところまで進めると良いようです。

生存者バイアスの変形

成功したサンプルから推測する失敗の原因と、実際に失敗した原因が異なると、パラドックスのように見えます。

実際のデータ分析では、「成功事例しかない」、「失敗事例しかない」という状況はあります。 しかし、成功事例や失敗事例だけから、「こうだから成功した(失敗した)」、「こうすれば成功する(失敗する)」といったように進めると、大きな見落としをしている可能性があることを示しています。

バークソンのパラドックス

「コライダーバイアス」や「合流点バイアス」とも呼ばれます。

特定の条件だけのサンプルの中では、本来は無相関なのに、相関が表れる例です。

平均への回帰

「平均から離れた値のサンプルが得られた場合、次のサンプルの値が、最初の値と比べてどうか?」という問題を考えます。 この場合、さらに平均から離れた値よりも、平均に近い値の方が出やすいです。

平均への回帰の応用

この性質の応用として、グループの変化についての分析があります。

例えば、サイコロを振って、1が出た人と、2が出た人が、それぞれ2人いたとします。 この4人の平均は、1.5です。 次に、この4人が、もう1回サイコロを振って、4人の平均を計算します。 その時は、この4人の中で、1、2以外の目も出て来る可能性が高いので、平均は1.5よりも高くなる可能性が高いです。 これも、平均への回帰の一種です。

なお、平均への回帰が起きるのは、サイコロのように、個人について、出て来る値に傾向がない場合です。 テストのように、「いつも点が低い人がいる」というような場合は、平均への回帰は起きにくいです。

疑似相関

擬似相関 は、本当は無関係なのに、因果関係があるように見えてしまうパラドックスです。



順路 次は サンプル数の決め方


杉原データサイエンス事務所のロゴ
杉原データサイエンス事務所によるコンサルティングとセミナー