有向グラフの探索アルゴリズムの開発

このサイトでは、有向グラフになるデータの構造として、７種類をまとめています。世の中の解説にはない種類も入っています。

世の中の解説だと、これらのうちの１種類のみの事が多いです。

筆者が参考にした先行研究

if-thenルールになるデータの構造は、「ビールとオムツ」の話で使われている分析方法なので、有名です。しかし、この方法は、カテゴリの類似度の分析でした。決定木の弱点を補う方法としては役に立ったのですが、変数の類似度の分析ではないので、筆者が欲しい物とは、違っていました。

条件付き独立になるデータの構造は、調べてみると、けっこう古くから研究されています。これは、変数の類似度の分析で、量的・質的変数のいずれにも対応できる優れものですが、変な結果になりがちで、筆者の実務では使えませんでした。

回帰モデルになるデータの構造は、 LiNGAM は、変数の類似度の分析で、量的変数の方法だったため、最初に知った時は、「感動」と言っても良いくらいの感覚でした。ただ、LiNGAMが想定するようなデータ構造のデータを、筆者が扱うことがありませんでした。

情報量の変化があるデータの構造は、AICやBICとして、評価方法は、かなり前から確立されています。

因果の時間差は、「因果関係があるなら、時間差がある」というのは、因果関係の考察でよく見かけるものですが、システム同定のような専門的な分野以外では、データ分析の手順が確立されていないようでした。

以下は、筆者が独自に考案したことは事実なのですが、同じものが既に研究されている可能性はあります。

相関係数でネットワークグラフを作ると、無向グラフになります。これはこれで役に立って来たのですが、データをさらに活用する方法として、「有向グラフ」に期待するところが大きかったです。

世の中に、既にあれば、それを活用させていただくのですが、いくら探しても見つからなかったのと、幸い、自分で作れたので、結果的に欲しいものが使えるようになりました。

ハイブリッド有向相関分析は、量的変数用のアルゴリズムです。

条件付き独立による探索は、質的変数向けとして独立性の検定を使う方法が有名ですが、これは質的変数に限定されることと、変数の膨大な組み合わせを網羅的に調べなければならない、という難しさがありました。これを偏相関係数による有向相関分析で解決できそうなことに気付いたのが、１つめのポイントでした。

また、正規化による有向相関分析という方法があることにも気付いたのが、２つめのポイントでした。

そして、両者が補完するように使うと、"強い"方法になると気付いたのが、３つめのポイントでした。

有向情報量分析は、質的変数用のアルゴリズムです。

AICやBICによる構造探索が、有向グラフの探索になっていることに気付いたのが、最初のポイントでした。

さらに、AICやBICによる構造探索は、変数の組合せを網羅的に調べる方法として使うのが、先例でしたが、２変数間の向きだけを調べ、その結果を集計した方が良いことに気付いたのが２つめのポイントでした。

これを実現するには、AICやBICではなく、平均情報量と相互情報量を使えば良いことに気付いたのが３つめのポイントでした。