トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

辞書を整備しないで解析する方法

テキストマイニング は、実際にやってみると、とても手間がかかります。 特に辞書作りが大変です。

では、「辞書作りをしっかりやらないと、何も解析ができないのか?」というと、そうでもありません。

辞書が重要でない時

辞書が重要になるのは、個々の単語の関係の解析などで、 個々の単語を確実に数えたい時です。

一方、テキストがたくさんあって、 テキスト単位の解析 をする時は、数え間違えの影響は、考えなくて良い時もあります。

辞書以外で単語を確実に集計する方法

KH Coderでは、「強制抽出する語」を設定する事ができ、そこで設定した言葉は、 「タグ」という品詞として分類されます。 また、TTMでは、「キーワード」として、強制的に抽出する機能があります。

この機能を使うと、辞書にない言葉でも、確実に抽出する事ができます。

また、製品名、人名、地名、組織名などは、間違って分類される事がよくあります。 不特定多数の分類なら、誤差と思えば済む事もありますが、 あるグループに所属する人をもれなく数えたい場合などは、該当する人だけは、確実に数えたい事もあります。

こういった時は、強制抽出でグループの人の名前を定義しておけば、タグという品詞として抽出する事ができます。



順路 次は 共起

Tweet データサイエンス教室