擬似相関のページにあるように、 「疑似相関というものがあるから、相関関係と因果関係は同じではない。」というのは、よく言われる話です。 疑似相関は、ネガティブなイメージで語られることが多いです。
このページは、疑似相関があることを前提にしたデータ分析です。 擬似相関を、積極的に使う方法です。
下記の「違う条件のY同士を調べる」と「予測精度の判定」では、疑似相関の関係のあるデータが、直線的にデータが並ぶ性質を使います。
横軸がAの利益、縦軸がBの利益とします。
この時、正の相関があれば、両得の関係(ウィンウィン:Win-win)を表しています。
負の相関があれば、二律背反の関係(トレードオフ:Trade-off)の関係を表します。
この場合は「Xを固定した時のYを調べる。」という言い方もされます。
例えば、0分、10分、20分の温度が、ある温度計で20℃、25℃、30℃、
別の温度計で19℃、26℃、31℃だったとして、
(20、19)、(25、26)、(30、31)の値をプロットして、
2つの温度計の関係を調べる場合があります。
この場合、時間がXですが、Xの値がプロットの中には入ってきません。
Y同士の関係のみを見ています。
この例ではXが量的なデータですが、
例えば、Xが東京、福島、新潟のような質的データでも、この方法は使えます。
この考え方は、 品質工学 の 標準SN比 で応用されています。
ちなみに、(0分、20℃)、(10分、25℃)、(20分、30℃)をプロットして、 時間と温度の関係を調べる場合が、@の使い方です。 @の使い方を、2つの温度計で行って、 両方のXとYの相関係数を比較する方法もあります。
二重測定(対応のあるデータ) は、この方法と似ています。
予測式を作る時に使ったXの値を式に入れて、Yを計算すると、 予測値のY(計算したY)と、実測値のY(予測式を作る時に使ったY)の2つが用意できます。 予測式が適切であれば、 予測値と実測値が直線状に並ぶはずです。 そこで、予測精度(フィッティング)の判定を相関係数ですることができます。
この評価に使う相関係数は、 重相関係数とも呼ばれます。
この関係を調べる場合は、相関係数の2乗の、「決定係数」の方が多く使われています。 決定係数の場合は、%を単位にすることがあります。 決定係数は、「決定率」や、「寄与率」と言われることもあります。
決定係数の求め方には、「相関係数を計算してから2乗する方法」と、 「予測値と実測値の、それぞれの分散を求めてから、それらを割り算する方法」の2つがあります。 求まる値は同じです。
回帰分析 等を予測に使う場合は、実測値のXとYの相関性の評価と、 Y'(予測値)とY(実測値)の相関性の評価があります。 Y'は、Xの実測値を予測式に代入すると、求めることができます。
下図は、
モデル木
のページにある例です。
順路 次は 相関の検定