「車に乗って、遊びに行った。」、という文を、 形態素解析 すると、「車」、「乗る」、「遊び」、「行く」と言った単語に分解されます。 この文の中では、これらの単語は、「共起(きょうき)」と呼びます。
共起している単語は、関係性が強いと考えられます。 テキストマイニング では、いろいろな解析方法で共起の情報を使います。
共起を解析する時は、共起の範囲が重要になります。 csvファイルが入力ファイルの場合、行ごとに共起の範囲になるのが一般的です。
txtファイルが入力の場合、ファイルごとや改行ごと(段落ごと)になる場合もあります。
隣り合っている単語の共起については、関係が深い可能性が高いですが、 遠く離れた単語は、何の関係もない可能性が高いです。
単純に共起を集計するだけでは、この距離が考慮されない点に注意が必要です。
手間はかかりますが、入力ファイルを加工して、共起の範囲が変わるようにすると、 解析結果として見えるものも変わって来ます。
範囲が狭いと、係り受けの解析と似たような効果のある解析になります。
共起の関係を調べる場合は、 アソシエーション分析 などで、変数の関係(表の列の関係)を調べます。
「チャンスとリスのマネジメント」 大澤幸生 他 編著 朝倉書店 2006
「チャンス」の解析方法として、キーグラフ(KeyGraph)の紹介があります。
キーグラフは、共起関係を
ネットワーク分析
で調べる方法の一種です。
頻度の高い共起と、頻度の低い共起を色分けしてするところが特徴です。
KeyGraphは、無料の試用版も提供されています。(2016現在)
この本では、
決定木
等が、キーグラフの補助として出て来ます。
「リスク」の方は、
金融リスク
の話です。
順路 次は テキスト単位の解析