人が文章を読解する時は、前後の言葉との関係や、言葉の意味を考えて、その文章を理解します。 そういった解析方法の研究もあるようですが、 テキストマイニング として一番始めやすいのは、形態素解析でバラバラにした単語の解析です。
文書が、単語レベルになり、それが表形式にまとめられると、 データマイニング や 多変量解析 の方法を、テキストの解析の方法として使うことができるようになります。
形態素解析は、テキストマイニングの第一歩です。 文章を単語レベルに分解する方法を、形態素解析と言います。
日本語の場合、 英語のように、単語と単語の間に空白が入る事がないので、文のどこで区切るのかは、それだけで大変な技術が必要になります。
同じものを見ても、人は「車」と呼んだり、「セダン」と呼んだりします。 これを同じと見るかどうかという判断には、 オントロジー を使うのが良いようです。 人工知能 の分野で研究されているとは思いますが、 今のところ、テキストマイニングのソフトで、一般的ではないようです。
同義語は、解析者が定義する必要があります。
形態素解析のフリーソフトで、筆者が触ったことがあるのは、Chasen(ちゃせん)とMeCab(めかぶ)です。
一般的には、MeCabの方が、Chasenよりも性能が上と言われていますが、 筆者の経験の範囲では、Chasenの方が使いやすいです。
まず、専門用語やその略語の割合が非常に多い文章や、かなり癖のある文章の場合、 Mecabは品詞の分類をかなり間違えます。
品詞が辞書に登録されていない単語は、「未知語」と呼ばれますが、Chasenは「未知語」として振り分けます。 Mecabはソフトが自分で判断する機能が付いていて、どれかの品詞に振り分けます。
「大きな白い花が咲いた。しかし、まだ辺りは暗く、誰の目にも付かなかった。」
、という文章があったとします。
形態素解析の結果だけを見ると、「大きい」のは何なのか、「暗い」のは何なのか、と言った事がわかりません。
形態素解析の中に、 共起 の解析もあり、共起がわかれば何となく推定できますが、何となくしかわかりません。
係り受けの関係がわかると、何の話をしているのかが、具体的に分かって来ます。
順路 次は ワードクラウド