トップページ |
統計学の解釈学 |
このサイトについて
以下は、筆者の私見です。 誤解があれば、ご教示いただけると幸いです。
統計学を使っていると、「直感的に予想していた結果と合わない」、「同じ結果になると思っていたら、逆になった」、「良いと思ったら、むしろ悪くなった」といった事例がいろいろあります。
このページは、それらをできるだけ集め、分類してみたものです。
一般的なデータ分析は、既にあるデータや、自分が持っているデータだけで進めます。 そういう時に起きるパラドックスです。
実験計画法 を使って、漏れなく偏りなく取得したデータについての分析なら起きにくいパラドックスです。
統計学や因果推論関係の文献で、よく紹介されます。
層別して出した結果と、層別せずに出した結果が矛盾する例です。
成功した場合のデータだけからわかる失敗の原因と、失敗した本当の原因が異なる例です。
サンプリングが偏っていると、本当は無相関なのに、相関が表れる例です。
2つの現象の両方が混ざっている現象を使って分析すると、本来無関係な2つの現象に、相関が表れる例です。
平均から離れた値のサンプルが得られた場合、次のサンプルの値は、最初の値も、平均に近くなりやすい現象の例です。
真の値を測る精度が低いと起きる現象です。
コイン、じゃんけん、サイコロなどがあるので、確率は身近です。 とはいえ、抽象的な物の考え方をします。
2つ以上の物事が混ざった確率について、直感的な判断をすると、計算を間違えます。
情報を得た上で、確率を計算する場合に起きるパラドックスです。
情報を得た後に、直感的に計算してわかる確率と、丁寧に計算してわかる確率が異なります。
「ベルトランの箱のパラドックス」と「ベルトランのパラドックス」と呼ばれるものは、別物です。
箱なしの「ベルトランのパラドックス」は、図形の問題で起こるパラドックスです。 ランダムの定義の仕方が違うと、求まる確率が異なることを示しています。
情報を得た上で、確率を計算する場合に起きるパラドックスです。
情報を得た後に丁寧に計算してわかる確率と、情報を得る前に計算した確率が、結果的に同じになります。 それが、情報を得た後に直感的に計算した確率と異なることが、パラドックスになる例です。
情報を得た上で、確率を計算する場合に起きるパラドックスです。
情報を得た後に、直感的に計算してわかる確率と、丁寧に計算してわかる確率が異なります。
正しく計算できると、「最初の選択を変えた方が良い」という意思決定につながる点が、ベルトランの箱の問題よりも複雑になっています。
「同じ誕生日の人が少なくとも2人いる確率」と聞いた時に、 「自分と同じ誕生日の人がいる確率」と誤解することで、非常に低い確率のように思ってしまう例です。
「任意の2人の組合せ」なら、それほど低くないことは、丁寧に計算しないとわからないのが、ポイントです。
確率が低いことが起きると、本当は、等確率なのに、「等確率ではない」と思ってしまう例です。
条件付き確率P(X|Y)と、P(Y|X)の混同で起きる例です。
ベースレート(基準率・事前確率)が低く、偽陽性率が高い場合、偽陽性になる人が多くなります。 そのため、「陽性」となった場合に、本当に陽性の確率は、あまり高くなりません。
ベースレートと、偽陽性率の両方を考慮した計算をしなければいけないのに、偽陽性率だけで判断してしまう例です。
計算方法によって、結果が変わるパラドックスは、「このデータは、こういう計算で分析すれば良い」という判断を間違えると起きます。
200kmを、行きは時速100km、帰りは時速50kmで進んだ場合、合計時間は、
200/100 + 200 /50 = 2 + 4 =6
なので、6時間です。
平均速度は、
(200+200) / 6 = 66.666・・・
なので、だいたい時速67kmです。
(100 + 50) /2 = 75
なので、「平均速度は時速75km」と計算すると、間違いです。
この例が、イェンセンの不等式に関連するパラドックスの例です。 平均値を使った計算は、注意が必要です。
母平均の差の検定と、回帰分析で結果が異なる。
頻度論による仮説検定と、ベイズ流の仮説検定で、結果が反対になる例として知られています。
方法が違うと、使っている言葉の意味も違うことを気にせずに、表面的な言葉だけを見て判断すると起きる現象です。
説明変数を増やして、複雑なモデルを作ると、決定係数が大きくなります。 増やせば増やすほど、大きくなるのですが、「大きいほど良い」という訳ではないことが知られています。
まず、目的変数に対して、まったく無関係と考えられる説明変数を増やした時でも起きます。 これを知らないと、「決定係数が上がったから、この変数は何か関係しているはずだ」という間違いにつながります。
また、学習データ対しての精度は上がったのに、未知のデータについての予測精度は下がることが起きます。 これを知らないと、出たらめな予測で、混乱することにつながります。
説明変数同士に完全に相関がなければ問題ないのですが、そうではない場合に、 重回帰分析 をすると、 単回帰分析 の結果と符号が逆転することがあります。
重回帰分析をして、係数の大きさや符号を使って、現象を考察すると、この問題が起きます。
「パラドックスで学ぶ統計学」 岩崎学・川崎玉恵 著 共立出版 2025
代表的なパラドックスについて、類似の事例や、数理的な背景を説明しています。
・モンティ・ホール問題
・シンプソンのパラドックス
・ロードのパラドックス
・バークソンのパラドックス
・出生体重パラドックス : 低体重の赤ちゃんだけで見ると、喫煙者の赤ちゃんの方が、死亡率が低い、という予想に反する結果になる。喫煙者の方が赤ちゃんの体重が低いことと、死亡率をどのように関連付けるのかが分析のポイントになる。
・媒介分析 : 単回帰分析と重回帰分析で、係数の符号が逆転する現象
・回帰における抑制 : 説明変数を増やすと、影響がまったくないはずの変数だとしても、決定係数が高くなる現象
・平均への回帰 : 平均よりも低いサンプルは、次の測定で、最初の測定よりも高くなる傾向がある。
また、その逆も起こる現象
・リンドレーのパラドックス : 頻度論とベイズ流で、検定の結果が異なる
「論理的思考力を鍛える 33の思考実験」 北村良子 著 彩図社 2024
確率に関係する思考実験が紹介されています。
モンティホール問題、ベルトランの箱、3囚人問題などについて、著者がアレンジしたものがあります。
「クリティカルシンキングで学ぶ データリテラシー」 小林みどり 著 共立出版 2025
タイトルにある
クリティカルシンキング
や
データリテラシー
の話題として、モンティホール問題、陽性率問題、シンプソンのパラドックスの説明もあります。
