トップページ |
統計学の解釈学 |
このサイトについて
以下は、筆者の私見です。 誤解があれば、ご教示いただけると幸いです。
統計学を使っていると、「直感的に予想していた結果と合わない」、「同じ結果になると思っていたら、逆になった」、「良いと思ったら、むしろ悪くなった」といった事例がいろいろあります。
筆者は、広い意味で「統計学が生む逆説」と呼ばれているものをできるだけ集めました。 実務で気を付けるポイントとしては、それらを大きく3種類に分けると良さそうなので、以下は、その分類で並べています。
個々の逆説にはテクニカルな側面があります。
実務で気を付けるポイントは、個々の逆説特有の部分よりも、分類の中で共通する部分の方です。
個々のパラドックスの詳しい話は、別のページにあります。
以下は、共通する部分を中心にした書き方にしています。
サンプリングが生む逆説 は4種類挙げます。 一般的なデータ分析は、既にあるデータや、自分が持っているデータだけで進めます。 そういう時に起きる逆説です。
サンプリング関係のパラドックスは、データに漏れや偏りがある場合のものが多いですが、 シンプソンのパラドックスは、漏れや偏りがないデータで起きます。
偏らせた時の結果と、偏っていない時の結果の違いについてのパラドックスです。
2種類ある内の片方のサンプルしかない状況で、もう片方を推測する時に起きます。
「コライダーバイアス」や「合流点バイアス」とも呼ばれます。
サンプルの選び方が偏っているために、原因系同士に、本来はないはずの相関が表れることがあります。
平均から大きく離れてサンプルは、特別視したくなります。
母集団が同じなのに、特定のサンプルを特別視すると起きるパラドックスです。
本当は無関係なのに、因果関係があるように見えてしまうパラドックスです。
「サンプリングで起こるパラドックス」に分類していますが、「サンプルの選び方」ではなく、「変数の選び方」についてのパラドックスです。
確率の計算が生む逆説 は、いろいろあります。 コイン、じゃんけん、サイコロなどがあるので、確率は身近です。 とはいえ、抽象的な物の考え方をします。
2つ以上の物事が混ざった確率について、直感的な方法で計算すると、間違えることがあります。
情報を得た上で、確率を計算する場合に起きるパラドックスです。
情報を得た後に、直感的に計算してわかる確率と、丁寧に計算してわかる確率が異なります。
情報を得た上で、確率を計算する場合に起きるパラドックスです。
情報を得た後に丁寧に計算してわかる確率と、情報を得る前に知っていた確率が同じになります。 それが、情報を得た後に直感的に計算した確率と異なることが、パラドックスになります。
情報を得た上で、確率を計算する場合に起きるパラドックスです。
情報を得た後に、直感的に計算してわかる確率と、丁寧に計算してわかる確率が異なります。
正しく計算できると、「最初の選択を変えた方が良い」という意思決定につながる点が、ベルトランの箱の問題よりも複雑になっています。
「任意の2人の組合せ」というものがイメージしにくいため、直感的に計算してわかる確率が、丁寧に計算してわかる確率と大きく異なってしまいます。
毎回独立して起こる現象の場合、直近の結果は無関係にも関わらず、直近の結果も含めて等確率が成立していると考えてしまう間違いです。
2つの現象を合わせた確率の計算で起こる間違いです。
ベースレート(事前知識として持っている確率)を考慮しないことで起こる間違いです。
「ランダム」という言葉の意味が違うと、求まる確率が異なることを示しています。
計算方法によって、結果が変わる逆説は、「このデータは、こういう計算で分析すれば良い」という判断を間違えると起きます。
イェンセンの不等式に関連するパラドックス は、平均値同士の足し算や引き算ができるのは、特別な場合だけなのを知らないと起きます。
二者択一が生む逆説 です。分析の目的やプロセスの違いを無視して、結果の文言を表面的に比べると起きます。
過学習によるパラドックス は、現象のメカニズムや、現象とデータの関係を無視したり、未来のデータでも確実に成り立っていることの確認をしなかったりすると起きます。
符号反転 は、同じことについて、計算方法が異なると、プラスとマイナスの両方が導かれることについてのパラドックスです。
符号の向きで現象の解釈をしている時に、混乱の原因になります。
因果反転 は、実際の因果関係と、データから導かれた因果関係のパラドックスです。
因果関係の定義と、実際の因果関係が合っていないと起きます。 何らかの定義によって、データから有向グラフを作った時に、矢印の向きをそのまま因果関係の向きと解釈すると起きます。
「パラドックスで学ぶ統計学」 岩崎学・川崎玉恵 著 共立出版 2025
代表的なパラドックスについて、類似の事例や、数理的な背景を説明しています。
・モンティ・ホール問題
・シンプソンのパラドックス
・ロードのパラドックス
・バークソンのパラドックス
・出生体重パラドックス : 低体重の赤ちゃんだけで見ると、喫煙者の赤ちゃんの方が、死亡率が低い、という予想に反する結果になる。喫煙者の方が赤ちゃんの体重が低いことと、死亡率をどのように関連付けるのかが分析のポイントになる。
・媒介分析 : 単回帰分析と重回帰分析で、符号反転
・回帰における抑制 : 抑制変数の効果
・平均への回帰 : 平均よりも低いサンプルは、次の測定で、最初の測定よりも高くなる傾向がある。
また、その逆も起こる現象
・リンドレーのパラドックス : 頻度論とベイズ流で、検定の結果が異なる
「論理的思考力を鍛える 33の思考実験」 北村良子 著 彩図社 2024
確率に関係する思考実験が紹介されています。
モンティホール問題、ベルトランの箱、3囚人問題などについて、著者がアレンジしたものがあります。
「クリティカルシンキングで学ぶ データリテラシー」 小林みどり 著 共立出版 2025
タイトルにある
クリティカルシンキング
や
データリテラシー
の話題として、モンティホール問題、陽性率問題、シンプソンのパラドックスの説明もあります。
「おもしろパラドックス 古典的名作から日常生活の問題まで」 ゲイリー・ヘイデン・マイケル・ピカード 著 創元社 2016
確率的パラドックスとして、ギャンブラーの誤謬、男の子と女の子(ベルトランの箱のパラドックスと同じ)、同じ誕生日、モンティホール問題、2つの封筒のパラドックス、サンクトペテルブルクのパラドックスがあります。
「突然頭が鋭くなる42の思考実験」 小川仁志 著 SBクリエイティブ 2018
「もしも○○なら」という思考実験を幅広く紹介しています。
統計学が関係するのは、モンティホール問題とギャンブラーの誤謬です。
「情報を正しく選択するための認知バイアス事典 行動経済学・統計学・情報学編」 情報文化研究所 著 フォレスト出版 2023
統計学関係のバイアスとして、バークソン・バイアス、シンプソンのパラドックス、モンティホール問題、基準率の無視(ベースレートの誤謬)、検察官の誤謬があります。
また、グラフの範囲や、データの測定方法が変わったなど、データリテラシーに起因する誤解や、検定の解釈による誤解もあります。
「文系のための 東大の先生が教える バイアスの心理学」 植田一博 監修 ニュートンプレス 2023
意識や記憶によるバイアスの話題が多いですが、最後の章が統計学に関するものになっています。
ギャンブラーの誤謬、モンティホール問題、ベースレートの誤謬、疑似相関、シンプソンのパラドックスが紹介されています。
