トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

テキストマイニングのソフト

テキストマイニングは、専用ソフトがいろいろ出ています。日進月歩の分野なので、このサイトの内容はすぐに古くなるかもしれませんが、まとめてみました。

なお、このページの内容は、フリーソフトです。

形態素解析のフリーソフトとして、 MeCabやChasenがありますが、これらは膨大な量の文章を処理したい時には不便です。テキストマイニングのフリーソフトと呼ばれているものは、ChasenやMeCabを内部に組み込んで、自由な解析をしやすいように作られています。

RMeCab

RMeCabは、RでMecabを使うためのソフトです。 Rによるテキストマイニングに簡単な使い方をまとめました。

KH Coder

テキストマイニングの主要な解析を、ひとつのソフトでできるようになっています。マウス操作で使えるので、とても簡単です。

KH Coderをインストールすると、Chasenは自動的に組み込まれています。 MeCabも別にインストールすれば、MeCabをエンジンにする事もできます。

形態素解析した結果を、csvファイルで出力してくれます。これは、いろいろな解析の出発点にできます。

KH Coderの注意点

半角文字が扱えません。半角文字を含んだ単語は、未知語になります。カタカナや英数字は、予め全角文字に直しておく必要があります。

TTM（TinyTextMiner）

TTMは、形態素解析と係り受け解析のソフトです。 MeCabとCaboChaを使った比較的規模の大きな解析が、簡単にできるように作られています。

とてもシンプルなソフトです。形態素解析や、係り受け解析だけの機能を持っていて、主要な形式で解析結果を出力します。この結果をどうやってまとめるのかは、解析者に任せています。要は、テキストマイニングで、テキストマイニングならではの部分を、しっかりやってくれます。グラフの機能はないので、係り受け解析をするつもりはなく、ざっくりテキストの内容を見たいのなら、KH Coderの方が良いと思います。

TTMの注意点

KH Coderのように、txtのファイルは扱えません。

csvファイルの場合は、2列の構造にする必要があり、1列目はタグで、2列目が解析したいテキストになります。一般的なデータ解析の形式では、1行目は変数の名前にしますが、TTMは1行目から解析の対象になるので、不要です。

Excelでは、セルの中で改行をする事がありますが、KH Coderはそうやって作ったcsvファイルも解析できます。 TTMでは解析できないので、clean関数などで改行を取り除く必要があります。

TETDM（Total Environment for Text Data Mining）

TETDMは、上記のものに比べて比較的新しいものです。「失礼単語抽出」等、ちょっと変わったツールがあります。開発者が複数いて、個々のニーズで作ったツールを共有する仕組みを持っているようです。

参考文献

「Rによるテキストマイニング入門」石田基広　著　森北出版　2008
RMeCabの作者による本です。「Rによる」とありますが、R単体の他に、MeCabとRMeCabのインストールが必要です。
形態素解析の結果を、主成分分析やクラスター分析に持っていく方法等が、事例を使って詳しく解説されています。

「Rで学ぶ日本語テキストマイニング」石田基広、小林雄一郎　著　ひつじ書房　2013
同著者の上記の本と比べると、係り受けのCaboChaの話が、増えています。
事例が多いのはこの本も同じですが、そのテキスト特有の内容の考察よりも、多変量解析的なアプローチでわかる事の話が多い印象でした。

「データマイニング入門　：Rで学ぶ最新データ解析」豊田秀樹　編著　東京図書　2008
データマイニングの手法を、コード付きの例題を使って、Rで勉強できる本です。第9章が潜在意味解析（Latent Sematic Analysis ： LSA）です。この章では、形態素解析からの手順を説明しています。
潜在意味解析は、言葉の同義性や、多義性に対処するために発展した統計手法とのことです。知識の獲得、小論文の自動採点、等、幅広い応用があるそうです。

「人文・社会科学のためのテキストマイニング」松村真宏、三浦麻子　著　誠信書房　2014
タイトルからはわからないのですが、この本は、TTMのマニュアルとしてまとめられていますし、テキストマイニングの一般的な入門書としても、まとめられています。著者がTTMの開発者です。
HADという統計解析のフリーソフトは、Excel上で動き、回帰分析や、 SEM・共分散構造分析など、心理学の統計で使う手法が一通り入っているそうです。このソフトとExcelTTMは相性が良いので、連携させる開発が進んでいるそうです。

「フリーソフトTETDMで学ぶ実践データ分析」砂山渡　著　コロナ社　2020
TETDMの入門書です。

順路次は辞書を整備しないで解析する方法

杉原データサイエンス事務所によるコンサルティングとセミナー