トップページ | データサイエンスの成功事例集 | このサイトについて

有向グラフの探索アルゴリズムの開発

このサイトでは、 有向グラフになるデータの構造 として、7種類をまとめています。

世の中の解説だと、これらのうちの1種類のみの事が多いですし、世の中の解説にはない種類も入っています。

筆者が参考にした先行研究

if-thenルールになるデータの構造 は、「ビールとオムツ」の話で使われている分析方法なので、有名です。 しかし、この方法は、 カテゴリの類似度の分析 でした。 決定木 の弱点を補う方法としては役に立ったのですが、 変数の類似度の分析 ではないので、筆者が欲しい物とは、違っていました。

条件付き独立になるデータの構造 は、調べてみると、けっこう古くから研究されています。 これは、 変数の類似度の分析 で、量的・質的変数のいずれにも対応できる優れものですが、変な結果になりがちで、筆者の実務では使えませんでした。

回帰モデルになるデータの構造 は、 LiNGAM は、変数の類似度の分析で、量的変数の方法だったため、最初に知った時は、「感動」と言っても良いくらいの感覚でした。 ただ、LiNGAMが想定するようなデータ構造のデータを、筆者が扱うことがありませんでした。

情報量の変化があるデータの構造 は、AICやBICとして、評価方法は、かなり前から確立されています。

因果の時間差 は、「因果関係があるなら、時間差がある」というのは、因果関係の考察でよく見かけるものですが、 システム同定 のような専門的な分野以外では、データ分析の手順が確立されていないようでした。

筆者が独自に考案したこと

以下は、筆者が独自に考案したことは事実なのですが、同じものが既に研究されている可能性はあります。

相関係数でネットワークグラフを作ると、無向グラフになります。 これはこれで役に立って来たのですが、データをさらに活用する方法として、「有向グラフ」に期待するところが大きかったです。

世の中に、既にあれば、それを活用させていただくのですが、いくら探しても見つからなかったのと、 幸い、自分で作れたので、結果的に欲しいものが使えるようになりました。

ハイブリッド有向相関分析

ハイブリッド有向相関分析 は、量的変数用のアルゴリズムです。

条件付き独立による探索 は、質的変数向けとして独立性の検定を使う方法が有名ですが、これは質的変数に限定されることと、変数の膨大な組み合わせを網羅的に調べなければならない、という難しさがありました。これを 偏相関係数による有向相関分析 で解決できそうなことに気付いたのが、1つめのポイントでした。

また、 正規化による有向相関分析 という方法があることにも気付いたのが、2つめのポイントでした。

そして、両者が補完するように使うと、"強い"方法になると気付いたのが、3つめのポイントでした。

有向情報量分析

有向情報量分析 は、質的変数用のアルゴリズムです。

AICやBICによる構造探索が、有向グラフの探索になっていることに気付いたのが、最初のポイントでした。

さらに、AICやBICによる構造探索は、変数の組合せを網羅的に調べる方法として使うのが、先例でしたが、2変数間の向きだけを調べ、その結果を集計した方が良いことに気付いたのが2つめのポイントでした。

これを実現するには、AICやBICではなく、平均情報量と相互情報量を使えば良いことに気付いたのが3つめのポイントでした。



データサイエンス教室