トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

擬似相関を使ったデータ分析

擬似相関のページにあるように、「疑似相関というものがあるから、相関関係と因果関係は同じではない。」というのは、よく言われる話です。疑似相関は、ネガティブなイメージで語られることが多いです。

このページは、疑似相関があることを前提にしたデータ分析です。 擬似相関を、積極的に使う方法です。

下記の「違う条件のY同士を調べる」と「予測精度の判定」では、疑似相関の関係のあるデータが、直線的にデータが並ぶ性質を使います。

利害関係を調べる

横軸がAの利益、縦軸がBの利益とします。この時、正の相関があれば、両得の関係（ウィンウィン：Win-win）を表しています。負の相関があれば、二律背反の関係（トレードオフ：Trade-off）の関係を表します。
擬似相関

違う条件のY同士を調べる

この場合は「Xを固定した時のYを調べる。」という言い方もされます。
例えば、0分、10分、20分の温度が、ある温度計で20℃、25℃、30℃、別の温度計で19℃、26℃、31℃だったとして、（20、19）、（25、26）、（30、31）の値をプロットして、２つの温度計の関係を調べる場合があります。この場合、時間がXですが、Xの値がプロットの中には入ってきません。 Y同士の関係のみを見ています。この例ではXが量的なデータですが、例えば、Xが東京、福島、新潟のような質的データでも、この方法は使えます。
擬似相関

この考え方は、品質工学の標準SN比で応用されています。

ちなみに、（0分、20℃）、（10分、25℃）、（20分、30℃）をプロットして、時間と温度の関係を調べる場合が、①の使い方です。 ①の使い方を、２つの温度計で行って、両方のXとYの相関係数を比較する方法もあります。

二重測定（対応のあるデータ）は、この方法と似ています。

予測精度の判定

予測式を作る時に使ったXの値を式に入れて、Yを計算すると、予測値のY（計算したY）と、実測値のY（予測式を作る時に使ったY）の2つが用意できます。予測式が適切であれば、予測値と実測値が直線状に並ぶはずです。そこで、予測精度（フィッティング）の判定を相関係数ですることができます。

この評価に使う相関係数は、重相関係数とも呼ばれます。

この関係を調べる場合は、相関係数の２乗の、「決定係数」の方が多く使われています。決定係数の場合は、％を単位にすることがあります。決定係数は、「決定率」や、「寄与率」と言われることもあります。

決定係数の求め方には、「相関係数を計算してから２乗する方法」と、「予測値と実測値の、それぞれの分散を求めてから、それらを割り算する方法」の２つがあります。求まる値は同じです。

回帰分析等を予測に使う場合は、実測値のXとYの相関性の評価と、 Y'（予測値）とY（実測値）の相関性の評価があります。 Y'は、Xの実測値を予測式に代入すると、求めることができます。

下図は、モデル木のページにある例です。
model tree

疑似相関からの因果推論

対応のあるデータの散布図

順路次は相関の検定

杉原データサイエンス事務所によるコンサルティングとセミナー