下のような散布図があったとします。 青い丸のプロットが、正常時のデータとします。 赤い三角のプロットは、正常か異常かわからないデータとします。
赤い三角のプロットは、青い丸のプロットの範囲に入っているので、
「赤い三角のプロットは正常」という判定がされる場合が、一般的には多いと思います。
ただし、
検定
を知っている人は、範囲の端の方であることを考えて、「異常かも」と迷うかもしれません。
ところで、このような場合は、 AやBの片方の変数だけでできる判定と、両方合わせてできる判定が変わらないので、 変数が2つある事には利点がありません。
筆者の経験の範囲になりますが、たくさんの変数(項目)のデータがあっても、 重要な変数同士には 多重共線性 の関係があって、上の図のような状況になっていることがほとんどです。
このページのこの後は、上の図のような状況ではない時の話です。 知っていると、出会った時に役に立ちます。
なお、このページの話は、 相関性 の考え方の話なので、 二重測定 のデータに限ったものはないです。 ただ、現実に起こりがちなのは、 二重測定 のデータのようです。
下のような散布図があったとします。
上の散布図と比べると、赤い三角のプロットの位置は同じですが、青い丸のプロットは全然違っています。
赤い三角のプロットの位置は、Aの方向で考えても、Bの方向で考えても、青い丸のプロットの範囲に入っています。 そのため、この場合も「赤い三角のプロットは正常」という判定ができそうですが、この図の場合は、事情が違っています。
ポイントは、AとBに 相関 がないことです。 相関がないということは、Aの方向で見た時に範囲の端の方であったとしても、Bの方向で見た時にどこにあるのかは無関係ということになります。
そのため、AとBの両方で範囲の端の方で発生するということは、ただごとではない事が起きているという事を意味します。 AやBの両方に対して、範囲の中になっていても、「これは異常の可能性が高い」という判定をすることができます。
二重測定(対応のあるデータ)の使い道 として、ひとつの測定では判別が難しくても、2つの測定の両方の結果を合わせることで、判別能力を向上させられることがあります。
散布図の見た目ではなく、定量的に判定する方法としては、 MT法 や 決定木 があります。 これらの手法を使うと、 「起きにくいことが二重に起きているということは、ものすごく起きにくいことが起きている」ということを、定量的に扱えます。
AとBに相関がある場合、Aで範囲の端の方になる時は、Bでも範囲の端の方になるのが当たり前なので、相関がない時のような分析の仕方ができません。
ふたたび、下のようにAとBが完全に相関している場合を考えます。
AとBが完全に相関している場合には、二重測定でなければ絶対にわからない異常のパターンがあります。
それが、下の図の緑色の四角のプロットの位置です。
AとBのどちらか一方を見る限りでは、どちらを見たとしても、正常値の範囲の中心付近にありますので、 この点が異常値だとは、絶対に思えません。
<相関関係がない時の探索 のページに、ふだんは相関しているのに相関しないことに注目する話がありますが、 それと似ています。
MT法 は、 多重共線性 のあるデータには使えないため、2つの変数が完全に相関している場合は、使えません。
しかし、ある程度は相関しているとしても、相関係数が±1にはなっていないのでしたら、 MT法 は、二重測定のデータの検証に役に立ちます。
完全に相関している場合には、 単回帰分析 をして、予測値と実測値の差の大きさで考えた方が良いかもしれません。
順路 次は 実験計画法