形態素解析

人が文章を読解する時は、前後の言葉との関係や、言葉の意味を考えて、その文章を理解します。そういった解析方法の研究もあるようですが、テキストマイニングとして一番始めやすいのは、形態素解析でバラバラにした単語の解析です。

文書が、単語レベルになり、それが表形式にまとめられると、データマイニングや多変量解析の方法を、テキストの解析の方法として使うことができるようになります。

形態素解析は、テキストマイニングの第一歩です。文章を単語レベルに分解する方法を、形態素解析と言います。

日本語の場合、英語のように、単語と単語の間に空白が入る事がないので、文のどこで区切るのかは、それだけで大変な技術が必要になります。

同じものを見ても、人は「車」と呼んだり、「セダン」と呼んだりします。これを同じと見るかどうかという判断には、オントロジーを使うのが良いようです。人工知能の分野で研究されているとは思いますが、今のところ、テキストマイニングのソフトで、一般的ではないようです。

同義語は、解析者が定義する必要があります。

形態素解析のフリーソフトで、筆者が触ったことがあるのは、Chasen（ちゃせん）とMeCab（めかぶ）です。

一般的には、MeCabの方が、Chasenよりも性能が上と言われていますが、筆者の経験の範囲では、Chasenの方が使いやすいです。

まず、専門用語やその略語の割合が非常に多い文章や、かなり癖のある文章の場合、 Mecabは品詞の分類をかなり間違えます。

品詞が辞書に登録されていない単語は、「未知語」と呼ばれますが、Chasenは「未知語」として振り分けます。 Mecabはソフトが自分で判断する機能が付いていて、どれかの品詞に振り分けます。

構文解析（係り受け解析）

「大きな白い花が咲いた。しかし、まだ辺りは暗く、誰の目にも付かなかった。」
、という文章があったとします。形態素解析の結果だけを見ると、「大きい」のは何なのか、「暗い」のは何なのか、と言った事がわかりません。

形態素解析の中に、共起の解析もあり、共起がわかれば何となく推定できますが、何となくしかわかりません。

係り受けの関係がわかると、何の話をしているのかが、具体的に分かって来ます。