このサイトでは、 有向グラフになるデータの構造 として、7種類をまとめています。
世の中の解説だと、これらのうちの1種類のみの事が多いですし、世の中の解説にはない種類も入っています。
if-thenルールになるデータの構造 は、「ビールとオムツ」の話で使われている分析方法なので、有名です。 しかし、この方法は、 カテゴリの類似度の分析 でした。 決定木 の弱点を補う方法としては役に立ったのですが、 変数の類似度の分析 ではないので、筆者が欲しい物とは、違っていました。
条件付き独立になるデータの構造 は、調べてみると、けっこう古くから研究されています。 これは、 変数の類似度の分析 で、量的・質的変数のいずれにも対応できる優れものですが、変な結果になりがちで、筆者の実務では使えませんでした。
回帰モデルになるデータの構造 は、 LiNGAM は、変数の類似度の分析で、量的変数の方法だったため、最初に知った時は、「感動」と言っても良いくらいの感覚でした。 ただ、LiNGAMが想定するようなデータ構造のデータを、筆者が扱うことがありませんでした。
情報量の変化があるデータの構造 は、AICやBICとして、評価方法は、かなり前から確立されています。
因果の時間差 は、「因果関係があるなら、時間差がある」というのは、因果関係の考察でよく見かけるものですが、 システム同定 のような専門的な分野以外では、データ分析の手順が確立されていないようでした。
以下は、筆者が独自に考案したことは事実なのですが、同じものが既に研究されている可能性はあります。
相関係数でネットワークグラフを作ると、無向グラフになります。 これはこれで役に立って来たのですが、データをさらに活用する方法として、「有向グラフ」に期待するところが大きかったです。
世の中に、既にあれば、それを活用させていただくのですが、いくら探しても見つからなかったのと、 幸い、自分で作れたので、結果的に欲しいものが使えるようになりました。
ハイブリッド有向相関分析 は、量的変数用のアルゴリズムです。
条件付き独立による探索 は、質的変数向けとして独立性の検定を使う方法が有名ですが、これは質的変数に限定されることと、変数の膨大な組み合わせを網羅的に調べなければならない、という難しさがありました。これを 偏相関係数による有向相関分析 で解決できそうなことに気付いたのが、1つめのポイントでした。
また、 正規化による有向相関分析 という方法があることにも気付いたのが、2つめのポイントでした。
そして、両者が補完するように使うと、"強い"方法になると気付いたのが、3つめのポイントでした。
有向情報量分析 は、質的変数用のアルゴリズムです。
AICやBICによる構造探索が、有向グラフの探索になっていることに気付いたのが、最初のポイントでした。
さらに、AICやBICによる構造探索は、変数の組合せを網羅的に調べる方法として使うのが、先例でしたが、2変数間の向きだけを調べ、その結果を集計した方が良いことに気付いたのが2つめのポイントでした。
これを実現するには、AICやBICではなく、平均情報量と相互情報量を使えば良いことに気付いたのが3つめのポイントでした。