Rによるデータ分析

Rによるテキストマイニング

テキストマイニング をする場合、テキストを表データにするところからになります。 RMeCabはそのためのソフトです。

RMeCab

RMeCabは、Rで 形態素解析 するためのソフトです。 Rの中でMeCabを使えるようになっていて、MeCabの出力がRの出力として得られます。 そのため、そのままRの豊富な機能で解析できます。

RMeCabを使うには、RとMeCabのインストールも必要になります。

筆者なりに、最短でできるようにするための知識をまとめてみたのが、下記になります。

前提条件

※ フォルダの場所や、ファイル名等は、一例です。
(1) パソコンに、R、MeCabをダウンロードして、インストールする。
(2) RMeCabをダウンロードして、Rのモジュールとして使えるようにしておく。
(3) Cドライブに「Rtest」というフォルダを作る。
(4) 「Rtest」フォルダの中に、「DataSet」というフォルダを作る。
(5) 形態素解析したいテキストファイルを、「DataSet」フォルダに置く。ファイルは複数でも良い。 1つのファイルの結果が1列のデータになる。
(6) 名詞、動詞、形容詞のみを抽出する。
(7) 形態素解析の結果は、「DM」というリストで記憶される。
(8) 「DM」の内容は、「Rtest」フォルダの中の、「MecabKekka.csv」というファイルに出力される。

Rの命令文

※ 下記の6行を、一度にコピーペーストして実行すると、エラーになる場合があります。  その場合は、1行ずつ進めればできました。

library(RMeCab) # RMeCabを読み込み
setwd("C:/Rtest") # 作業用ディレクトリを変更
DM <- docMatrix("DataSet", pos = c("名詞","動詞","形容詞")) # 形態素解析して、表に集計
DM <- DM[ row.names(DM) != "[[LESS-THAN-1]]" , ]  # 不要な文字列を削除
DM <- DM[ row.names(DM) != "[[TOTAL-TOKENS]]" , ] # 不要な文字列を削除
write.csv(DM, file = "MecabKekka.csv") # csvファイルを出力

RCaboCha

RCaboChaは、RでCaboChaを使えるようになっているらしいのですが、 2016年時点では、開発がストップしているせいもあり、バージョンの組み合わせを適切に選ばないと、使えないようでした。 筆者自身は、試せていません。

ワードクラウド

ワードクラウド の実施例です。

この例では、Cドライブの「Rtest」というフォルダに、 「TextData.csv」という名前のデータが入っている事を想定しています。 1列目に「Term」という変数名で単語が入っていて、2列目に「Freq」という変数名で出現回数が入っているデータを想定しています。

また、wordcloudというライブラリもあらかじめインストールしておきます。

setwd("C:/Rtest") # 作業用ディレクトリを変更
library(wordcloud)
TextData <- read.table("TextData.csv", header=T, sep=",") # データを読み込み
wordcloud(TextData$Term, TextData$Freq, min.freq=100, color=brewer.pal(8, "Dark2"))# 100回以上の単語を含むグラフを描く

形態素解析の例




Tweet データサイエンス教室