トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

共起

「車に乗って、遊びに行った。」、という文を、 形態素解析 すると、「車」、「乗る」、「遊び」、「行く」と言った単語に分解されます。 この文の中では、これらの単語は、「共起(きょうき)」と呼びます。

共起している単語は、関係性が強いと考えられます。 テキストマイニング では、いろいろな解析方法で共起の情報を使います。

共起の範囲

共起を解析する時は、共起の範囲が重要になります。 csvファイルが入力ファイルの場合、行ごとに共起の範囲になるのが一般的です。

txtファイルが入力の場合、ファイルごとや改行ごと(段落ごと)になる場合もあります。

隣り合っている単語の共起については、関係が深い可能性が高いですが、 遠く離れた単語は、何の関係もない可能性が高いです。

単純に共起を集計するだけでは、この距離が考慮されない点に注意が必要です。

共起の範囲を変えた解析

手間はかかりますが、入力ファイルを加工して、共起の範囲が変わるようにすると、 解析結果として見えるものも変わって来ます。

範囲が狭いと、係り受けの解析と似たような効果のある解析になります。

解析のアプローチ

共起の関係を調べる場合は、 アソシエーション分析 などで、変数の関係(表の列の関係)を調べます。




参考文献

チャンスとリスのマネジメント」 大澤幸生 他 編著 朝倉書店 2006
「チャンス」の解析方法として、キーグラフ(KeyGraph)の紹介があります。 キーグラフは、共起関係を ネットワーク分析 で調べる方法の一種です。 頻度の高い共起と、頻度の低い共起を色分けしてするところが特徴です。 KeyGraphは、無料の試用版も提供されています。(2016現在)
この本では、 決定木 等が、キーグラフの補助として出て来ます。
「リスク」の方は、 金融リスク の話です。


順路 次は テキスト単位の解析

Tweet データサイエンス教室