トップページ |
統計学の解釈学 |
このサイトについて
以下は、筆者の私見です。 誤解があれば、ご教示いただけると幸いです。
統計学が生む逆説 の一種です。 統計的な検定と、統計教育の歴史 のページにもありますが、伝統的な検定では、 「帰無仮説と対立仮説のどちらなのか?」という二者択一の問題として、検定を進めます。
その弊害と筆者は考えているのですが、違う方法で違う結果が出た時に、「パラドックスだ!」と考えてしまう風潮があります。 二者択一の考え方を、もう少し緩めると良いようです。
母平均の差の検定で、「男女ともに、体重の増加はない」という結果になり、 回帰分析で「同じ体重の場合、男性の方が増加している」という結果になることをパラドックスとしています。
回帰分析の方の結論は、「傾きが同じ。切片が男性の方が高い」という計算の結果から導かれているのですが、 個人的には、このプロセスがおかしいと思っています。
この回帰分析では、「同じ性別の中では、平均値よりも高いほど、体重の減り方が大きい。平均値よりも低いほど、体重の増え方が大きい」という結果になっています。 そのため、男女ともに、切片がプラスの値になっています。
同じ性別の中で、増える人と減る人がいて、しかも、それが元の体重に依存しているのなら、平均値で体重の増加を議論することに、そもそも無理があるように思っています。
つまり、パラドックス以前の問題として、データと分析方法が合っていないと考えています。
また、回帰分析の結果は、傾きが1よりも小さいので、傾きだけなら体重は減少することを表しているのですが、切片とバランスを取ることで、平均値は増加も減少もしていないデータになっています。 「同じ体重の場合、男性の方が増加している」とは言っていても、「男性全体や女性全体を単独で見た時に、体重は増加している」とは言っていないのがポイントです。 体重は増加していないのに、切片のところだけを切り取って来て、「男性の方が増加している」という、奇妙な理屈が展開されています。
頻度論による仮説検定と、ベイズ流の仮説検定で、結果が反対になる例として知られています。
まず、前提として、このパラドックスは、 2種類の対立仮説 という点では、フィッシャー流の対立仮説の場合の話です。
フィッシャー流の対立仮説の場合なので、頻度論の方では、対立仮説の具体的な数式が不要です。 帰無仮説についてどうなのかを調べて行きます。
ベイズ流の方では、計算の中で、対立仮説の具体的な数式が必要になるのですが、リンドレーのパラドックでは、 「ではない」の分布 と、筆者が呼んでいる方法が使われています。
「リンドレーのパラドックスは、プロセスが違うのだから、結果が違うことはおかしなことではない」や、 「サンプル数が増えれば増えるほど、帰無仮説が棄却されやすくなっている頻度論の計算は間違っている」といった解釈をすることが一般的のようです。
個人的には、ベイズ流の仮説検定の方がおかしいと考えています。 「ではない」の分布 のページでも説明していますが、 「ではない」の分布 を仮定しているところが、間違いになっています。
例えば、コインの表裏の出方について、表が必ず出るのなら「1」とします。 偏りがないのなら「0.5」です。 裏が出やすいのなら、例えば「0.3」となります。
ベイズ流の仮説検定では対立仮説として、「0.5ではない」を仮定します。 この表現では違和感は起きませんが、ベイズ流の仮説検定で使っている具体的な数式を言葉で表すと、 「0から1までの可能性をまんべんなく持っているが、0.5にだけはならない」が「0.5ではない」とイコールの数式です。 こんなコインは現実にはあり得ないです。
一方、帰無仮説の方の「0.5ぴったり」というのも、あり得ないです。 こうなって来ると、帰無仮説と対立仮説の両方があり得ないのですが、サンプル数が増えれば増えるほど、あり得ない度合いが明確になります。
対立仮説の方は、物理的にあり得ないことが仮定されています。 一方、実際のデータが、0.5に近くなかったとしても、それはあり得る数字です。 感覚的ですが、この差によって、サンプル数が増えれば増えるほど、帰無仮説が支持されやすくなる状況を生んでいるようです。
「パラドックスで学ぶ統計学」 岩崎学・川崎玉恵 著 共立出版 2025
ロードのパラドックスとリンドレーのパラドックスがあります。
「実践としての統計学」 佐伯胖・松原望 編 東京大学出版会 2024
サンプル数が増えた時に、頻度論では帰無仮説が棄却されやすくなり、ベイズ流の仮説検定では対立仮説が棄却されやすくなる性質があるものとして、リンドレーのパラドックスを紹介しています。
