トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

擬似相関を使ったデータ分析

擬似相関のページにあるように、 「疑似相関というものがあるから、相関関係と因果関係は同じではない。」というのは、よく言われる話です。 疑似相関は、ネガティブなイメージで語られることが多いです。

このページは、疑似相関があることを前提にしたデータ分析です。 擬似相関を、積極的に使う方法です。

下記の「違う条件のY同士を調べる」と「予測精度の判定」では、疑似相関の関係のあるデータが、直線的にデータが並ぶ性質を使います。

利害関係を調べる

横軸がAの利益、縦軸がBの利益とします。 この時、正の相関があれば、両得の関係(ウィンウィン:Win-win)を表しています。 負の相関があれば、二律背反の関係(トレードオフ:Trade-off)の関係を表します。
擬似相関

違う条件のY同士を調べる

この場合は「Xを固定した時のYを調べる。」という言い方もされます。
例えば、0分、10分、20分の温度が、ある温度計で20℃、25℃、30℃、 別の温度計で19℃、26℃、31℃だったとして、 (20、19)、(25、26)、(30、31)の値をプロットして、 2つの温度計の関係を調べる場合があります。 この場合、時間がXですが、Xの値がプロットの中には入ってきません。 Y同士の関係のみを見ています。 この例ではXが量的なデータですが、 例えば、Xが東京、福島、新潟のような質的データでも、この方法は使えます。
擬似相関

この考え方は、 品質工学標準SN比 で応用されています。

ちなみに、(0分、20℃)、(10分、25℃)、(20分、30℃)をプロットして、 時間と温度の関係を調べる場合が、@の使い方です。 @の使い方を、2つの温度計で行って、 両方のXとYの相関係数を比較する方法もあります。

二重測定(対応のあるデータ) は、この方法と似ています。

予測精度の判定

予測式を作る時に使ったXの値を式に入れて、Yを計算すると、 予測値のY(計算したY)と、実測値のY(予測式を作る時に使ったY)の2つが用意できます。 予測式が適切であれば、 予測値と実測値が直線状に並ぶはずです。 そこで、予測精度(フィッティング)の判定を相関係数ですることができます。

この評価に使う相関係数は、 重相関係数とも呼ばれます。

この関係を調べる場合は、相関係数の2乗の、「決定係数」の方が多く使われています。 決定係数の場合は、%を単位にすることがあります。 決定係数は、「決定率」や、「寄与率」と言われることもあります。

決定係数の求め方には、「相関係数を計算してから2乗する方法」と、 「予測値と実測値の、それぞれの分散を求めてから、それらを割り算する方法」の2つがあります。 求まる値は同じです。

回帰分析 等を予測に使う場合は、実測値のXとYの相関性の評価と、 Y'(予測値)とY(実測値)の相関性の評価があります。 Y'は、Xの実測値を予測式に代入すると、求めることができます。

下図は、 モデル木 のページにある例です。
model tree



疑似相関からの因果推論

対応のあるデータの散布図


順路 次は 相関の検定

Tweet データサイエンス教室