トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

テキストマイニングのソフト

テキストマイニング は、専用ソフトがいろいろ出ています。 日進月歩の分野なので、 このサイトの内容はすぐに古くなるかもしれませんが、まとめてみました。

なお、このページの内容は、フリーソフトです。

形態素解析 のフリーソフトとして、 MeCabやChasenがありますが、 これらは膨大な量の文章を処理したい時には不便です。 テキストマイニングのフリーソフトと呼ばれているものは、ChasenやMeCabを内部に組み込んで、 自由な解析をしやすいように作られています。

RMeCab

RMeCabは、RでMecabを使うためのソフトです。 Rによるテキストマイニング に簡単な使い方をまとめました。

KH Coder

テキストマイニングの主要な解析を、ひとつのソフトでできるようになっています。 マウス操作で使えるので、とても簡単です。

KH Coderをインストールすると、Chasenは自動的に組み込まれています。 MeCabも別にインストールすれば、MeCabをエンジンにする事もできます。

形態素解析した結果を、csvファイルで出力してくれます。これは、いろいろな解析の出発点にできます。

KH Coderの注意点

半角文字が扱えません。 半角文字を含んだ単語は、未知語になります。 カタカナや英数字は、予め全角文字に直しておく必要があります。

TTM(TinyTextMiner)

TTMは、形態素解析と係り受け解析のソフトです。 MeCabとCaboChaを使った比較的規模の大きな解析が、簡単にできるように作られています。

とてもシンプルなソフトです。 形態素解析や、係り受け解析だけの機能を持っていて、主要な形式で解析結果を出力します。 この結果をどうやってまとめるのかは、解析者に任せています。 要は、テキストマイニングで、テキストマイニングならではの部分を、しっかりやってくれます。 グラフの機能はないので、係り受け解析をするつもりはなく、 ざっくりテキストの内容を見たいのなら、KH Coderの方が良いと思います。

TTMの注意点

KH Coderのように、txtのファイルは扱えません。

csvファイルの場合は、2列の構造にする必要があり、1列目はタグで、2列目が解析したいテキストになります。 一般的なデータ解析の形式では、1行目は変数の名前にしますが、TTMは1行目から解析の対象になるので、不要です。

Excelでは、セルの中で改行をする事がでいて、KH Coderはそうやって作ったcsvファイルも解析できます。 TTMでは解析できないので、clean関数などで改行を取り除く必要があります。

TETDM(Total Environment for Text Data Mining)

TETDMは、上記のものに比べて比較的新しいものです。 「失礼単語抽出」等、ちょっと変わったツールがあります。 開発者が複数いて、個々のニーズで作ったツールを共有する仕組みを持っているようです。





参考文献

Rによるテキストマイニング入門」 石田基広 著 森北出版 2008
RMeCabの作者による本です。 「Rによる」とありますが、R単体の他に、MeCabとRMeCabのインストールが必要です。
形態素解析の結果を、 主成分分析クラスター分析 に持っていく方法等が、事例を使って詳しく解説されています。


Rで学ぶ日本語テキストマイニング」 石田基広、小林雄一郎 著 ひつじ書房 2013
同著者の上記の本と比べると、係り受けのCaboChaの話が、増えています。
事例が多いのはこの本も同じですが、そのテキスト特有の内容の考察よりも、多変量解析的なアプローチでわかる事の話が多い印象でした。


データマイニング入門 :Rで学ぶ最新データ解析」 豊田秀樹 編著 東京図書 2008
データマイニング の手法を、コード付きの例題を使って、Rで勉強できる本です。 第9章が潜在意味解析(Latent Sematic Analysis : LSA)です。 この章では、形態素解析からの手順を説明しています。
潜在意味解析は、言葉の同義性や、多義性に対処するために発展した統計手法とのことです。 知識の獲得、小論文の自動採点、等、幅広い応用があるそうです。


人文・社会科学のためのテキストマイニング」 松村真宏、三浦麻子 著 誠信書房 2014
タイトルからはわからないのですが、この本は、TTMのマニュアルとしてまとめられていますし、 テキストマイニングの一般的な入門書としても、まとめられています。 著者がTTMの開発者です。
HADという統計解析のフリーソフトは、Excel上で動き、 回帰分析や、 SEM・共分散構造分析など、 心理学の統計で使う手法が一通り入っているそうです。 このソフトとExcelTTMは相性が良いので、連携させる開発が進んでいるそうです。


フリーソフトTETDMで学ぶ実践データ分析」 砂山渡 著 コロナ社 2020
TETDMの入門書です。


順路 次は 辞書を整備しないで解析する方法

Tweet データサイエンス教室