テキストマイニング をする場合、テキストを表データにするところからになります。 RMeCabはそのためのソフトです。
RMeCabは、Rで 形態素解析 するためのソフトです。 Rの中でMeCabを使えるようになっていて、MeCabの出力がRの出力として得られます。 そのため、そのままRの豊富な機能で解析できます。
RMeCabを使うには、RとMeCabのインストールも必要になります。
筆者なりに、最短でできるようにするための知識をまとめてみたのが、下記になります。
※ フォルダの場所や、ファイル名等は、一例です。
(1) パソコンに、R、MeCabをダウンロードして、インストールする。
(2) RMeCabをダウンロードして、Rのモジュールとして使えるようにしておく。
(3) Cドライブに「Rtest」というフォルダを作る。
(4) 「Rtest」フォルダの中に、「DataSet」というフォルダを作る。
(5) 形態素解析したいテキストファイルを、「DataSet」フォルダに置く。ファイルは複数でも良い。
1つのファイルの結果が1列のデータになる。
(6) 名詞、動詞、形容詞のみを抽出する。
(7) 形態素解析の結果は、「DM」というリストで記憶される。
(8) 「DM」の内容は、「Rtest」フォルダの中の、「MecabKekka.csv」というファイルに出力される。
※ 下記の6行を、一度にコピーペーストして実行すると、エラーになる場合があります。 その場合は、1行ずつ進めればできました。
library(RMeCab) # RMeCabを読み込み
setwd("C:/Rtest") # 作業用ディレクトリを変更
DM <- docMatrix("DataSet", pos = c("名詞","動詞","形容詞")) # 形態素解析して、表に集計
DM <- DM[ row.names(DM) != "[[LESS-THAN-1]]" , ] # 不要な文字列を削除
DM <- DM[ row.names(DM) != "[[TOTAL-TOKENS]]" , ] # 不要な文字列を削除
write.csv(DM, file = "MecabKekka.csv") # csvファイルを出力
RCaboChaは、RでCaboChaを使えるようになっているらしいのですが、 2016年時点では、開発がストップしているせいもあり、バージョンの組み合わせを適切に選ばないと、使えないようでした。 筆者自身は、試せていません。
ワードクラウド の実施例です。
この例では、Cドライブの「Rtest」というフォルダに、 「TextData.csv」という名前のデータが入っている事を想定しています。 1列目に「Term」という変数名で単語が入っていて、2列目に「Freq」という変数名で出現回数が入っているデータを想定しています。
また、wordcloudというライブラリもあらかじめインストールしておきます。
setwd("C:/Rtest") # 作業用ディレクトリを変更
library(wordcloud)
TextData <- read.table("TextData.csv", header=T, sep=",") # データを読み込み
wordcloud(TextData$Term, TextData$Freq, min.freq=100, color=brewer.pal(8, "Dark2"))# 100回以上の単語を含むグラフを描く