トップページ |
ひとつ上のページ |
目次ページ |
このサイトについて |
ENGLISH
一般的な統計学では、データに対して、分布を仮定し、その分布のパラメータ(平均値や標準偏差など)を調節して、 データと分布が一致するようにします。
コイン、じゃんけん、サイコロなどがあるので、確率は身近です。 とはいえ、抽象的な物の考え方をします。
2つ以上の物事が混ざった確率について、直感的な判断をすると、計算を間違えることがあります。
情報を得た上で、確率を計算する場合に起きるパラドックスです。
情報を得た後に、直感的に計算してわかる確率と、丁寧に計算してわかる確率が異なります。
「ベルトランの箱のパラドックス」と「ベルトランのパラドックス」と呼ばれるものは、別物です。
箱なしの「ベルトランのパラドックス」は、図形の問題で起こるパラドックスです。 ランダムの定義の仕方が違うと、求まる確率が異なることを示しています。
情報を得た上で、確率を計算する場合に起きるパラドックスです。
情報を得た後に丁寧に計算してわかる確率と、情報を得る前に計算した確率が、結果的に同じになります。 それが、情報を得た後に直感的に計算した確率と異なることが、パラドックスになる例です。
情報を得た上で、確率を計算する場合に起きるパラドックスです。
情報を得た後に、直感的に計算してわかる確率と、丁寧に計算してわかる確率が異なります。
正しく計算できると、「最初の選択を変えた方が良い」という意思決定につながる点が、ベルトランの箱の問題よりも複雑になっています。
「同じ誕生日の人が少なくとも2人いる確率」と聞いた時に、 「自分と同じ誕生日の人がいる確率」と誤解することで、非常に低い確率のように思ってしまう例です。
「任意の2人の組合せ」なら、それほど低くないことは、丁寧に計算しないとわからないのが、ポイントです。
例えば、コインを投げて、表が5回連続した場合に、「次は裏が出る可能性が高い」と考えてしまうことです。
確率が50%というのは、非常に長い目で見て集計した場合なので、何回連続したかに関わらず、反対側の可能性が変わることはないです。
なお、表が5回連続した場合に、確率50%の方を疑って、「次も表が出る可能性が高い」と考えることもできます。 こちらの考え方は誤謬ではないです。
ギャンブラーの誤謬は、「表が5回連続したからといって、裏が出やすくなることはないんだよ」というように誤解を正すようにして説明されることが多いです。 しかし、それはあくまで理想的なコイン投げが行われていることが前提です。 理想的なコイン投げが行われているのなら、誤謬になります。
ギャンブルの本当の難しさは、以下の3つのどれが真実なのかが、プレイヤーにはわからない中で、何らかの根拠を元にして、どれかに賭けるところではないかと思います。
条件付き確率P(X|Y)と、P(Y|X)の混同で起きる例です。
この混同をすると、本当は該当する人がたくさんいるのに、「この人が犯人に違いない」という誤解につながります。
1000人に1人に起きる病気があったとします。この割合を「ベースレート(基準率)」と言います。
この病気を判定する検査は、本当に病気の人については、0.9の確率で「陽性」となり、正しく判定できることがわかっているとします。 例えば、この病気の人が10人いた場合、9人は「陽性」と正しく判定できますが、1人は「陰性」と間違えてしまいます。
ある人が、検査をして「陽性」と出たとします。 すると、「0.9の確率で正しいのだから、本当に病気になっているに違いない」と考えがちです。
ところで、この考察では、本当は病気ではないのに、検査で「陽性」と判定される確率が入っていません。
例えば、本当は病気ではないのに、検査で「陽性」と判定される確率が、0.2だったとします。
10000人いた場合、正確にベースレートの通りなら、病気の人が10人、病気ではない人が9990人いることになります。 この検査をすると、病気の人で「陽性」と判定されるのは、10×0.9で、9人です。 病気ではないのに、「陽性」と判定されるのは、9990×0.2で、1998人です。 よって、「陽性」と判定される人は、9+1998で、2007人います。 「陽性」と判定された人の中で、本当に病気な人の割合は、9 / 2007で、約0.004です。
つまり、「陽性」と判定された人は、0.9ではなく、0.004の確率で病気になっていることになります。 検査をする前は、0.001の確率でしたが、検査で陽性になったことで、0.004に上がりました。
ちなみに、ベースレートの誤謬の解説では、本当は病気の人が「陰性」と判定される確率(偽陰性率)と、本当は病気ではない人が「陽性」と判定される確率(偽陽性率)を区別しないものが多いです。上の説明では分けました。
ベースレートの誤謬は、偽陰性率だけを気にして、ベースレートの考慮が抜けてしまうミスとして説明されることが一般的ですが、本当は、偽陽性率の考慮が抜けてしまうミスも含まれています。
次は
計算統計学
