杉原データサイエンス事務所のロゴ トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

符号反転とサンプル数

符号反転の事例集 は、どれもサンプル数が6個の場合です。

このページでは、「サンプル数が多い場合に、符号反転がどうなるのか?」 具体的には、「符号反転が起きるのは、サンプル数が少ない時だけでは?」、 「同じサンプル数でも、パターンによって、符号反転の発生率が変わるのでは?」という疑問について、調べたことを説明します。

調べ方

このページでは、以下ようなグラフを、パターン別に作っています。
符号反転

まず、左側に、データを作成する時の式があります。 この例の場合は、X1が乱数、X2は、X1に乱数を足したもの、YはX1とX2の和に、さらに乱数を足したものであることを表しています。

ここで使用した乱数は、0から1までの、一様分布に従う乱数です。 e1、e2、e3とは、それぞれ異なることを表しています。

グラフの横軸はサンプル数です。 赤丸をしたところは、「10」ですが、10個のサンプル数で相関係数を計算していることを表しています。

サンプル数が10の時は、10個のサンプルを1000回発生しています。 毎回、X1とX2、X1とY、X2とYの、それぞれの組合せについて、相関係数を計算します。 そして、符号反転の条件式に当てはまれば「1」、当てはまらなければ「0」とします。

1000回分を集計すると、条件式に当てはまる確率が求まります。 この作業を、サンプル数を5から1000まで、段階的に変えて実施して作ることで、グラフを作っています。


この例の場合は、まず、サンプル数が5個の時、成立率が0.143で、10個の時、0.033です。 「符号反転は、まれに起きる」ということがわかります。 次に、サンプル数が20個以上の場合は、符号反転が起きないこともわかります。

調査結果

符号反転の事例集 のパターンのついて、系統的に調べてみた結果、以下のようにまとめられることがわかりました。

明確に分かれました。 パターンは12種類ですが、符号反転の表れ方は、3種類に分かれています。
符号反転

基本的に、符号反転が起きるパターン

符号反転
シンプソンのパラドックスが成り立つパターンの時は、質的変数で層別した時の傾きと、全体的な傾きの符号が逆になるようにサンプリングしています。 符号反転は、必ず起きます。

ただし、このシミュレーションのように、ランダムにばらつくようにすると、サンプル数が少ない時に、符号が逆になっていないことがあります。

基本的に、符号反転が起きないパターン

「基本的に、符号反転は起きない。例外的に、サンプル数が少ない時は、符号反転が起きる事がある」となったパターンです。

符号反転の事例集 の例は、サンプル数が少ないので、様々なパターンで符号反転が起きる事例を見つけていますが、サンプル数が多いと、結果が変わることを推察できます。

符号反転

このパターンは、大きく分けて、上の5個と、最後の1個に分かれます。 上の5個の中の4個は、YとX1が直接的に関係している場合です。 1個は、YとX1が疑似相関の関係の時です。 いずれにしても、YとX1には、関係があります。

B、C、H、Iについては、YとX1の相関が高いことで、下の式の、赤枠で囲った部分の数字が大きくなり、条件式が成立しにくくなったことが理由と考えられます。
符号反転

Fについては、3つの変数で作られる3つの相関係数が、すべて高くなります。 例えば、3つの相関係数がすべて0.9だった場合、条件式の左辺側が0.9、右辺側が0.81になります。 このため、条件式が成立しにくくなったことが理由と考えられます。

Kは、Fの逆で、3つの変数で作られる3つの相関係数が、すべて低くなります。 例えば、3つの相関係数がすべて0.1だった場合、条件式の左辺側が0.1、右辺側が0.01になります。 このため、条件式が成立しにくくなったことが理由と考えられます。

確率が0.5以下で、符号反転が起きるパターン

「基本的に符号反転は起きる。確率は0.5くらい」となったパターンです。 Jだけ、0.2と0.3の間ですが、それ以外は、0.5くらいになっています。

符号反転

DとEについては、X1とX2の相関が高いことで、下の式の、赤枠で囲った部分の数字が1に近くなり、条件式が成立しやすくなったことが理由と考えられます。
符号反転

Jについては、YとX2の相関が高いことで、下の式の、赤枠で囲った部分の数字が1に近くなり、条件式が成立しやすくなったことが理由と考えられます。
符号反転

A、Gについては、YとX1の相関が低いことで、下の式の、赤枠で囲った部分の数字が0に近くなり、条件式が成立しやすくなったことが理由と考えられます。
符号反転

共通する理由として、この分類になったものは、X1と直接関係していないことがわかります。 YとX2が直接関係していて、X2はX1と直接関係しているのなら、間接的には関係していることになりますが、そうなっていても、符号反転が起きやすくはなっていないことがわかります。

なお、YとX1が直接関係しないことに加えて、3変数がお互いに無関係な場合に限っては、この分類には入らず、ひとつ前の分類になっています。

符号反転が起きる特別な現象はなさそう

符号反転について、「特殊な現象が起きている」と解釈した研究が、かなりあるようです。

このページの調査結果から考えると、シンプソンのパラドックスが成り立っている場合を除いて、符号反転は「必ず起きる」という性質のある現象ではないです。 データを取ったタイミングによって、起きたり起きなかったりする性質があります。

特に、YとX1に関係がない時は、0.5の確率で発生します。 無関係な変数に対して、「何か特別な性質を持った変数」という仮説を立てても、その先には何もないのではないかと考えています。

このページの調査は、モデル式を作って、モデル式から生まれる1000セットの結果を見ることで、符号反転の表れ方を見ています。 現実のデータ分析では、1000セットの中の1セットを、現実のデータとして手に入れて、それを分析することになります。 1セットだけからわかることにこだわると、現象を解明する方向性としては、良くないようです。



説明変数が2つのモデルの推定

スモールデータの統計学

順路 次は 多重共線性


杉原データサイエンス事務所のロゴ
杉原データサイエンス事務所によるコンサルティングとセミナー