杉原データサイエンス事務所のロゴ トップページ | 統計学の解釈学 | このサイトについて

統計学のパラドックス

以下は、筆者の私見です。 誤解があれば、ご教示いただけると幸いです。


統計学を使っていると、「直感的に予想していた結果と合わない」、「同じ結果になると思っていたら、逆になった」、「良いと思ったら、むしろ悪くなった」といった事例がいろいろあります。

このページは、それらをできるだけ集め、分類してみたものです。

サンプリングによって結果が変わるパラドックス

一般的なデータ分析は、既にあるデータや、自分が持っているデータだけで進めます。 そういう時に起きるパラドックスです。

実験計画法 を使って、漏れなく偏りなく取得したデータについての分析なら起きにくいパラドックスです。

シンプソンのパラドックス

統計学や因果推論関係の文献で、よく紹介されます。

層別して出した結果と、層別せずに出した結果が矛盾する例です。

生存者バイアス

成功した場合のデータだけからわかる失敗の原因と、失敗した本当の原因が異なる例です。

バークソンのパラドックス

サンプリングが偏っていると、本当は無相関なのに、相関が表れる例です。

コライダーバイアス(合流点バイアス)

2つの現象の両方が混ざっている現象を使って分析すると、本来無関係な2つの現象に、相関が表れる例です。

平均への回帰

平均から離れた値のサンプルが得られた場合、次のサンプルの値は、最初の値も、平均に近くなりやすい現象の例です。

真の値を測る精度が低いと起きる現象です。

確率の計算によって結果が変わるパラドックス

コイン、じゃんけん、サイコロなどがあるので、確率は身近です。 とはいえ、抽象的な物の考え方をします。

2つ以上の物事が混ざった確率について、直感的な判断をすると、計算を間違えます。

ベルトランの箱のパラドックス

情報を得た上で、確率を計算する場合に起きるパラドックスです。

情報を得た後に、直感的に計算してわかる確率と、丁寧に計算してわかる確率が異なります。

ベルトランのパラドックス

「ベルトランの箱のパラドックス」と「ベルトランのパラドックス」と呼ばれるものは、別物です。

箱なしの「ベルトランのパラドックス」は、図形の問題で起こるパラドックスです。 ランダムの定義の仕方が違うと、求まる確率が異なることを示しています。

三囚人問題

情報を得た上で、確率を計算する場合に起きるパラドックスです。

情報を得た後に丁寧に計算してわかる確率と、情報を得る前に計算した確率が、結果的に同じになります。 それが、情報を得た後に直感的に計算した確率と異なることが、パラドックスになる例です。

モンティ・ホール問題

情報を得た上で、確率を計算する場合に起きるパラドックスです。

情報を得た後に、直感的に計算してわかる確率と、丁寧に計算してわかる確率が異なります。

正しく計算できると、「最初の選択を変えた方が良い」という意思決定につながる点が、ベルトランの箱の問題よりも複雑になっています。

誕生日のパラドックス

「同じ誕生日の人が少なくとも2人いる確率」と聞いた時に、 「自分と同じ誕生日の人がいる確率」と誤解することで、非常に低い確率のように思ってしまう例です。

「任意の2人の組合せ」なら、それほど低くないことは、丁寧に計算しないとわからないのが、ポイントです。

ギャンブラーの誤謬

確率が低いことが起きると、本当は、等確率なのに、「等確率ではない」と思ってしまう例です。

検察官の誤謬

条件付き確率P(X|Y)と、P(Y|X)の混同で起きる例です。

ベースレートの誤謬

ベースレート(基準率・事前確率)が低く、偽陽性率が高い場合、偽陽性になる人が多くなります。 そのため、「陽性」となった場合に、本当に陽性の確率は、あまり高くなりません。

ベースレートと、偽陽性率の両方を考慮した計算をしなければいけないのに、偽陽性率だけで判断してしまう例です。

計算方法によって、結果が変わるパラドックス

計算方法によって、結果が変わるパラドックスは、「このデータは、こういう計算で分析すれば良い」という判断を間違えると起きます。

イェンセンの不等式に関連するパラドックス

200kmを、行きは時速100km、帰りは時速50kmで進んだ場合、合計時間は、
200/100 + 200 /50 = 2 + 4 =6
なので、6時間です。 平均速度は、
(200+200) / 6 = 66.666・・・
なので、だいたい時速67kmです。

(100 + 50) /2 = 75
なので、「平均速度は時速75km」と計算すると、間違いです。

この例が、イェンセンの不等式に関連するパラドックスの例です。 平均値を使った計算は、注意が必要です。

ロードのパラドックス

母平均の差の検定と、回帰分析で結果が異なる。

リンドレーのパラドックス

頻度論による仮説検定と、ベイズ流の仮説検定で、結果が反対になる例として知られています。

方法が違うと、使っている言葉の意味も違うことを気にせずに、表面的な言葉だけを見て判断すると起きる現象です。

過学習

説明変数を増やして、複雑なモデルを作ると、決定係数が大きくなります。 増やせば増やすほど、大きくなるのですが、「大きいほど良い」という訳ではないことが知られています。

まず、目的変数に対して、まったく無関係と考えられる説明変数を増やした時でも起きます。 これを知らないと、「決定係数が上がったから、この変数は何か関係しているはずだ」という間違いにつながります。

また、学習データ対しての精度は上がったのに、未知のデータについての予測精度は下がることが起きます。 これを知らないと、出たらめな予測で、混乱することにつながります。

符号反転

説明変数同士に完全に相関がなければ問題ないのですが、そうではない場合に、 重回帰分析 をすると、 単回帰分析 の結果と符号が逆転することがあります。

重回帰分析をして、係数の大きさや符号を使って、現象を考察すると、この問題が起きます。



参考文献

パラドックスで学ぶ統計学」 岩崎学・川崎玉恵 著 共立出版 2025
代表的なパラドックスについて、類似の事例や、数理的な背景を説明しています。
モンティ・ホール問題
シンプソンのパラドックス
ロードのパラドックス
バークソンのパラドックス
出生体重パラドックス : 低体重の赤ちゃんだけで見ると、喫煙者の赤ちゃんの方が、死亡率が低い、という予想に反する結果になる。喫煙者の方が赤ちゃんの体重が低いことと、死亡率をどのように関連付けるのかが分析のポイントになる。
媒介分析 : 単回帰分析と重回帰分析で、係数の符号が逆転する現象
回帰における抑制 : 説明変数を増やすと、影響がまったくないはずの変数だとしても、決定係数が高くなる現象
平均への回帰 : 平均よりも低いサンプルは、次の測定で、最初の測定よりも高くなる傾向がある。 また、その逆も起こる現象
リンドレーのパラドックス : 頻度論とベイズ流で、検定の結果が異なる


論理的思考力を鍛える 33の思考実験」 北村良子 著 彩図社 2024
確率に関係する思考実験が紹介されています。 モンティホール問題、ベルトランの箱、3囚人問題などについて、著者がアレンジしたものがあります。


クリティカルシンキングで学ぶ データリテラシー」 小林みどり 著 共立出版 2025
タイトルにある クリティカルシンキングデータリテラシー の話題として、モンティホール問題、陽性率問題、シンプソンのパラドックスの説明もあります。





杉原データサイエンス事務所のロゴ
杉原データサイエンス事務所によるコンサルティングとセミナー