トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

if-thenルールになるデータの構造

相関関係の探索 の方法として、 アソシエーション分析 は強力です。 「データの 非対称性を利用できる。」、「 質的データを使った解析 による ロバストな解析手法 になる。」などの利点があります。

ただ、アソシエーション分析の結果を、因果関係の分析として使う場合は、間違えやすいので、注意が必要です。

ポイントから書きますと、 アソシエーション分析の出力として出て来る「if-thenルール(もしもAならばB)」は、AとBの因果関係ではありません。 因果関係ではなく、データの構造を表しています。

矢印の意味の違い

因果関係の分析とアソシエーション分析の共通点

因果関係の分析とアソシエーション分析ですが、いずれも「もしもAならばB」という内容を矢印で表します。 これが共通点になります。

因果関係の分析での矢印

因果関係の分析では、「もしもAならばB」という表現で因果関係を説明します。 また、この関係を矢印で表します。 矢の始点が原因で、終点が結果になるようにして使います。

QC7つ道具・新QC7つ道具SEM・共分散構造分析 といった手法の矢印は、この意味で使われいます。

因果関係のグラフは、グラフを作る人の知識や仮説を使って作られます。 時間的な順序がわかっているなどの特殊なケースでない限り、データだけでは矢印の向きはわかりません。

アソシエーション分析のグラフの矢印

アソシエーション分析では、「もしもAならばB」という表現でデータの構造を説明します。 また、この関係を矢印で表します。 矢の始点が部分集合で、終点がその部分集合を含む集合になるようにして使います。

因果とアソシエーション分析の結果の関係

データの例は、天気予報と、その日の持ち物を表しています。 このデータの人は、朝、天気予報を見て、傘を持って行くかどうかを決めています。 図は、そのデータをアソシエーション分析した結果です。
非対称の利用 非対称の利用

「天気予報=雨」や「天気予報=曇」と、「傘=持っている」の間の矢は、原因側が始点になっています。

一方、「天気予報=晴」と「傘=持っていない」の間の矢は、結果側が始点になっています。

この例では、因果関係の向きと、とアソシエーション分析の矢印は一致しないことがわかります。

原因側が矢の始点の場合

天気予報が雨の場合と、曇の場合は、原因側が矢の始点になっています。 矢から、
「雨 → 傘を持っている」 = 「雨ならば、傘を持っている」
は、理解しやすいと思います。
「曇ならば、傘を持っている」
も同様です。

「雨」か「曇」のどちらかであれば、「傘を持っている」になりますので、原因側が矢の始点の場合は、 OR条件 (並列型)と言えます。

結果側が矢の始点の場合

天気予報が晴の場合は、結果側が矢の始点になっています。 矢の意味は、
「傘を持っていないならば、天気予報は晴だった」
です。

ポイントは、
「天気予報が晴ならば、傘は持っていない」
とは、言っていないことです。 つまり、天気予報が晴でも、傘を持っている事がある事を意味しています。

この結果だけでは、わかりませんが、 傘を持つかどうかは、「晴である事と、少なくとももうひとつの何かの条件で決まっている。」と考えられます。

つまり、結果側が矢の始点の場合は、 AND条件 (直列型)と言えます。

データなし、に切り込む

上記の例のうち、AND条件の方は、AND条件である事まではわかるのですが、 「少なくとももうひとつの何かの条件」が、実際に何であるのかは、わかりません。

アソシエーション分析は、優先度の高いif-thenルールから見せてくれるので、 優先度の低いルールを見れば、「何か」がわかる事もありますが、 筆者の経験の範囲では、データだけを見てもわからない事が多いようです。

また、上記の例の中で、OR条件の方は、「曇」と「雨」がORの関係にある条件になっているので、矢が2本ありますが、 実際のデータ解析では、1本しか表示されない事もあります。

この場合、優先度の低いルールを見ると、他の矢がわかる事がありますが、 データだけを見てもわからない事もあります。

実際のデータ解析では、因果関係を調べたい現象に対して、すべてのデータを持っていない事があります。 それが何かなのかがわからない事も、よくあります。

しかし、そんな時、その何かが、AND条件に関係するものなのか、OR条件に関係するものなのかを知っていると、 「何か」を推定しやすくなったり、調べやすくなったりします。

矢が両方を向いている時

例にはありませんが、両方を向いている矢が表示される事があります。 これは、 「AならばB」かつ「BならばA」の意味です。

この場合は、「唯一の原因が見つかった」と考えたくなりますが、 「今回のデータではこの結果」と、用心深く考えた方が無難です。

因果関係の分析の実際

上記の例は、「天気予報が原因(説明変数)で、傘が結果(目的変数)」とわかっているところから話がスタートしています。 ここからスタートして、ANDとORの話になっています。

実際の因果関係を分析する時は、原因と結果が、どの変数なのかがわからない事がよくあります。

例えば、データはあるけれども、データの背景( メタ知識 )を知らない場合です。 また、最終的な結果の変数はわかっているけれども、それ以外の変数の間にある因果関係は、わかっていない場合です。

原因と結果がわかっている場合には、矢の向きから、ANDかORがわかります。 原因と結果がわかっていない場合、「この変数が結果の場合は」、「この変数が原因の場合は」、と考えて行かないといけなくなります。 けっこう手間がかかります。

失敗しにくい解析に

アソシエーション分析の結果は、あくまでそのデータについてのものですので、 データの取り方の影響で、本当に知りたい事とアソシエーション分析の結果がずれる事もあります。

実際のデータ解析では、アソシエーション分析の結果からわかった事を手がかりにして、 層別 を駆使したりして、さらに深く解析する事もあります。 その中で、データの取り方の影響に気付く事もあります。

「ANDかORか」、「原因か結果か」といった事には、最初の段階ではあまり強くこだわらずに、 矢が結ばれたもの同士は、「よく起きる組み合わせらしい」程度の意識から始めて、最終的な結論を出す方が良いようです。




順路 次は 条件付き独立になるデータの構造

Tweet データサイエンス教室