Rによるデータ分析

Rによるテキストマイニング

テキストマイニングをする場合、テキストを表データにするところからになります。 RMeCabはそのためのソフトです。

RMeCab

RMeCabは、Rで形態素解析するためのソフトです。 Rの中でMeCabを使えるようになっていて、MeCabの出力がRの出力として得られます。そのため、そのままRの豊富な機能で解析できます。

RMeCabを使うには、RとMeCabのインストールも必要になります。

筆者なりに、最短でできるようにするための知識をまとめてみたのが、下記になります。

前提条件

※　フォルダの場所や、ファイル名等は、一例です。
(1)　パソコンに、R、MeCabをダウンロードして、インストールする。
(2)　RMeCabをダウンロードして、Rのモジュールとして使えるようにしておく。
(3)　Cドライブに「Rtest」というフォルダを作る。
(4)　「Rtest」フォルダの中に、「DataSet」というフォルダを作る。
(5)　形態素解析したいテキストファイルを、「DataSet」フォルダに置く。ファイルは複数でも良い。１つのファイルの結果が１列のデータになる。
(6)　名詞、動詞、形容詞のみを抽出する。
(7)　形態素解析の結果は、「DM」というリストで記憶される。
(8)　「DM」の内容は、「Rtest」フォルダの中の、「MecabKekka.csv」というファイルに出力される。

Rの命令文

※　下記の６行を、一度にコピーペーストして実行すると、エラーになる場合があります。　その場合は、１行ずつ進めればできました。

library(RMeCab) # RMeCabを読み込み
setwd("C:/Rtest") # 作業用ディレクトリを変更
DM <- docMatrix("DataSet", pos = c("名詞","動詞","形容詞")) #　形態素解析して、表に集計
DM <- DM[ row.names(DM) != "[[LESS-THAN-1]]" , ]　 # 不要な文字列を削除
DM <- DM[ row.names(DM) != "[[TOTAL-TOKENS]]" , ]　# 不要な文字列を削除
write.csv(DM, file = "MecabKekka.csv") # csvファイルを出力

RCaboCha

RCaboChaは、RでCaboChaを使えるようになっているらしいのですが、 2016年時点では、開発がストップしているせいもあり、バージョンの組み合わせを適切に選ばないと、使えないようでした。筆者自身は、試せていません。

ワードクラウド

ワードクラウドの実施例です。

この例では、Cドライブの「Rtest」というフォルダに、「TextData.csv」という名前のデータが入っている事を想定しています。１列目に「Term」という変数名で単語が入っていて、２列目に「Freq」という変数名で出現回数が入っているデータを想定しています。

また、wordcloudというライブラリもあらかじめインストールしておきます。

setwd("C:/Rtest") # 作業用ディレクトリを変更
library(wordcloud)
TextData <- read.table("TextData.csv", header=T, sep=",") # データを読み込み
wordcloud(TextData$Term, TextData$Freq, min.freq=100, color=brewer.pal(8, "Dark2"))# 100回以上の単語を含むグラフを描く
形態素解析の例

Rによるデータ分析

杉原データサイエンス事務所によるコンサルティングとセミナー