トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

ワードクラウド

形態素解析をして、テキストを単語に分解した後にできる最初の分析が、単語の出現回数（頻度）の分析です。ワードクラウドはこの分析に使うグラフです。

単語の出現回数の分析

形態素解析をすると、リンク先のサンプルファイルのようなデータを作ることができます。１列目の「Term」が単語（形態素）で、２列目の「Freq」が出現回数です。ちなみに、このデータは、このサイト全体を形態素解析したものです。

このデータをワードクラウドでグラフにすると、こんな感じです。
形態素解析の例

ワードクラウドでは、出現回数が多いほど、単語の字が大きくなっています。言葉の散布図のグラフとは違って、グラフの中の位置には意味がありません。そのため、単語同士の近さには意味がありません。

字の大きさだけが、意味のあるグラフです。色は、字の大きさで決まっています。色分けしないと、かなり見づらいです。

※　サンプルファイルはcsvファイルですが、 Windowsでリンクをクリックすると、「TextData.xls」のファイルとしてダウンロードされることがあります。そして、そのままこのファイルをExcelで開くと、おかしなデータになります。ダウンロードした後で、「TextData.csv」というcsvファイルに直してから使ってください。

棒グラフでは

同じデータについて、出現回数の多いものの棒グラフは、こんな感じです。
形態素解析の例

棒グラフでは、具体的な回数がわかるのは良いのですが、ひとつのグラフの中で、上位から数十個くらいしか示せません。

単語の出現回数の分析とは、、、

筆者の経験の範囲ですが、そのテキストの分野に詳しい人が、テキストマイニングに期待することは、テキストの要約や、見逃していたポイントの発見になっていることが、よくあります。

こうした期待を持っている方には、単語の出現回数の分析は、常識でしかなく、あまり意味がありません。

ワードクラウドは、「ワードクラウドでこんなことを発見しました！」というレポートで使われることがあります。そのテキストの分野に詳しくない人にとっては、単語の出現回数の分析は、とても意味のあることになって来ます。

ソフト

Rの実施例は、 Rによるテキストマイニングにあります。

順路次はテキストマイニングのソフト

杉原データサイエンス事務所によるコンサルティングとセミナー