トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

形態素解析

人が文章を読解する時は、前後の言葉との関係や、言葉の意味を考えて、その文章を理解します。 そういった解析方法の研究もあるようですが、 テキストマイニング として一番始めやすいのは、形態素解析でバラバラにした単語の解析です。

文書が、単語レベルになり、それが表形式にまとめられると、 データマイニング多変量解析 の方法を、テキストの解析の方法として使うことができるようになります。

形態素解析

形態素解析は、テキストマイニングの第一歩です。 文章を単語レベルに分解する方法を、形態素解析と言います。

日本語の場合、 英語のように、単語と単語の間に空白が入る事がないので、文のどこで区切るのかは、それだけで大変な技術が必要になります。

同義語の難しさ

同じものを見ても、人は「車」と呼んだり、「セダン」と呼んだりします。 これを同じと見るかどうかという判断には、 オントロジー を使うのが良いようです。 人工知能 の分野で研究されているとは思いますが、 今のところ、テキストマイニングのソフトで、一般的ではないようです。

同義語は、解析者が定義する必要があります。

形態素解析のフリーソフト

形態素解析のフリーソフトで、筆者が触ったことがあるのは、Chasen(ちゃせん)とMeCab(めかぶ)です。

一般的には、MeCabの方が、Chasenよりも性能が上と言われていますが、 筆者の経験の範囲では、Chasenの方が使いやすいです。

まず、専門用語やその略語の割合が非常に多い文章や、かなり癖のある文章の場合、 Mecabは品詞の分類をかなり間違えます。

品詞が辞書に登録されていない単語は、「未知語」と呼ばれますが、Chasenは「未知語」として振り分けます。 Mecabはソフトが自分で判断する機能が付いていて、どれかの品詞に振り分けます。

構文解析(係り受け解析)

「大きな白い花が咲いた。しかし、まだ辺りは暗く、誰の目にも付かなかった。」
、という文章があったとします。 形態素解析の結果だけを見ると、「大きい」のは何なのか、「暗い」のは何なのか、と言った事がわかりません。

形態素解析の中に、 共起 の解析もあり、共起がわかれば何となく推定できますが、何となくしかわかりません。

係り受けの関係がわかると、何の話をしているのかが、具体的に分かって来ます。



順路 次は ワードクラウド

Tweet データサイエンス教室