トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

if-thenルールになるデータの構造

非対称の利用
上のようなデータがあった場合、「もしも天気予報が雨ならば、傘を持っている」、「もしも傘を持っていないならば、天気予報は晴れ」というルールが読み取れます。 これを「if-thenルール」と呼びます。

アソシエーション分析 では、こうしたルールを自動的に見つけてくれます。

if-thenルールは、 有向グラフになるデータの構造 のひとつです。

if-thenルールが見つかっても、因果関係を表しているとは限らないのですが、誤解しやすいです。

if-thenルールと因果関係の、共通点

因果関係とif-thenルールは、いずれも「もしもAならばB」という表現をします。 また、その関係を矢印で表します。

これらが共通点です。 この共通点があるため、if-thenルールと因果関係は混同しやすいです。

矢印の意味の違い

因果関係の分析での矢印

因果関係の分析では、矢の始点が原因で、終点が結果になるようにして使います。

QC7つ道具・新QC7つ道具SEM・共分散構造分析 といった手法の矢印は、この意味で使われています。

if-thenルールの矢印

if-thenルールでは、 矢の始点が部分集合で、終点がその部分集合を含む集合を表します。

因果とif-thenルールの関係

データの例は、天気予報と、その日の持ち物を表しています。 このデータの人は、朝、天気予報を見て、傘を持って行くかどうかを決めています。 図は、そのデータをアソシエーション分析した結果です。
非対称の利用 非対称の利用

「天気予報=雨」や「天気予報=曇」と、「傘=持っている」の間の矢は、原因側が始点になっています。

一方、「天気予報=晴」と「傘=持っていない」の間の矢は、結果側が始点になっています。

この例では、因果関係の向きと、とアソシエーション分析の矢印は一致しないことがわかります。

原因側が矢の始点の場合

天気予報が雨の場合と、曇の場合は、原因側が矢の始点になっています。 矢から、
「雨 → 傘を持っている」 = 「雨ならば、傘を持っている」
は、理解しやすいと思います。
「曇ならば、傘を持っている」
も同様です。

「雨」か「曇」のどちらかであれば、「傘を持っている」になりますので、原因側が矢の始点の場合は、 OR条件 (並列型)と言えます。

結果側が矢の始点の場合

天気予報が晴の場合は、結果側が矢の始点になっています。 矢の意味は、
「傘を持っていないならば、天気予報は晴だった」
です。

ポイントは、
「天気予報が晴ならば、傘は持っていない」
とは、言っていないことです。 つまり、天気予報が晴でも、傘を持っている事がある事を意味しています。

この結果だけでは、わかりませんが、 傘を持つかどうかは、「晴である事と、少なくとももうひとつの何かの条件で決まっている。」と考えられます。

つまり、結果側が矢の始点の場合は、 AND条件 (直列型)と言えます。

データなし、に切り込む

上記の例のうち、AND条件の方は、AND条件である事まではわかるのですが、 「少なくとももうひとつの何かの条件」が、実際に何であるのかは、わかりません。

アソシエーション分析は、優先度の高いif-thenルールから見せてくれるので、 優先度の低いルールを見れば、「何か」がわかる事もありますが、 筆者の経験の範囲では、データだけを見てもわからない事が多いようです。

また、上記の例の中で、OR条件の方は、「曇」と「雨」がORの関係にある条件になっているので、矢が2本ありますが、 実際のデータ解析では、1本しか表示されない事もあります。

この場合、優先度の低いルールを見ると、他の矢がわかる事がありますが、 データだけを見てもわからない事もあります。

実際のデータ解析では、因果関係を調べたい現象に対して、すべてのデータを持っていない事があります。 それが何かなのかがわからない事も、よくあります。

しかし、そんな時、その何かが、AND条件に関係するものなのか、OR条件に関係するものなのかを知っていると、 「何か」を推定しやすくなったり、調べやすくなったりします。

矢が両方を向いている時

例にはありませんが、両方を向いている矢が表示される事があります。 これは、 「AならばB」かつ「BならばA」の意味です。

この場合は、「唯一の原因が見つかった」と考えたくなりますが、 「今回のデータではこの結果」と、用心深く考えた方が無難です。

因果関係の分析の実際

上記の例は、「天気予報が原因(説明変数)で、傘が結果(目的変数)」とわかっているところから話がスタートしています。 ここからスタートして、ANDとORの話になっています。

実際の因果関係を分析する時は、原因と結果が、どの変数なのかがわからない事がよくあります。

例えば、データはあるけれども、データの背景( メタ知識 )を知らない場合です。 また、最終的な結果の変数はわかっているけれども、それ以外の変数の間にある因果関係は、わかっていない場合です。

原因と結果がわかっている場合には、矢の向きから、ANDかORがわかります。 原因と結果がわかっていない場合、「この変数が結果の場合は」、「この変数が原因の場合は」、と考えて行かないといけなくなります。 けっこう手間がかかります。

失敗しにくい解析に

アソシエーション分析の結果は、あくまでそのデータについてのものですので、 データの取り方の影響で、本当に知りたい事とアソシエーション分析の結果がずれる事もあります。

実際のデータ解析では、アソシエーション分析の結果からわかった事を手がかりにして、 層別 を駆使したりして、さらに深く解析する事もあります。 その中で、データの取り方の影響に気付く事もあります。

「ANDかORか」、「原因か結果か」といった事には、最初の段階ではあまり強くこだわらずに、 矢が結ばれたもの同士は、「よく起きる組み合わせらしい」程度の意識から始めて、最終的な結論を出す方が良いようです。




順路 次は 条件付き独立になるデータの構造

Tweet データサイエンス教室