トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

テキストマイニング

テキストマイニングは、文章の解析方法です。 小説、解説記事、報告書、アンケートの自由記述文などなど、を解析します。 「テキスト」というデータならではの特徴があります。

テキストマイニングは データマイニング のひとつの分野として扱われる事もあります。

単語単位で、ばらばらにされたデータの分析

テキストマイニングの初歩は、 形態素解析 で、テキストを単語単位にばらばらにして、 Aを元のテキスト、Bをそのテキストに含まれる単語にした A-B型(行列の分解) のデータを作り、分析に入って行く方法があります。
関係性の行列表現

これだけでも ネットワークのグラフ を使って 共起 の関係を見たり、 多変量データの傾向解析 を使って、単語の使用量の変化を見たり等、いろいろなアプローチがあります。

ただし、このアプローチは、 人が文章を読んで、意味を理解するのとは違っていますので、最初は何をしているのかがわかりにくいと思います。

人と会話できる 人工知能 や、文章を解析するシステムなどがありますが、 自動作文 のような技術を使っている訳ではなく、 テキストの単位をうまく調整して、 共起の分析をうまく使っているものが、けっこうあるようです。

使い道

テキストマイニングは、 その分野の素人が、未知の分野の文章について、「どんな話をしているのだろう?」、と言った事を把握するのには、大変威力があります。

筆者の知る限りですが、 そのテキストの詳しい内容は知らないけれども、どんな内容かは知っている人にとっては、 一般的な解説書にあるようなテキストマイニングでは、あまり面白い結果は出てこない事が多いようです。

こういった話は、テキストマイニングだけでなく、データ解析全般であります。 テキストマイニングでは、特に顕著に表れて来るような感じがしています。

質的研究

質的研究とテキストマイニングの共通点として、テキストデータを分析する点があります。 異なる点として、質的研究では、単語単位でばらばらにしません。

質的研究は、テキストを理解、要約、まとめ、という分析をします。 分析者が全部読まなければならない上に、分析者の分析能力にも高いものが求められますが、テキストマイニングではできないことができます。

質的研究を効率的に進めるソフトはQDAと呼ばれていて、RでできるRQDAというものもあります。(筆者は触ったことがありません。)



大量の文章があるのですが、要約を自動で作れませんか?

多対多の分析

参考文献

テキストマイニング

ソーシャルメディアの経済物理学 ウェブから読み解く人間行動」 高安美佐子 編著 日本評論社 2012
ネットワーク 上(大量のブログ)の単語の量の変化の分析が中心です。 形態素解析 の後の単語を分析します。
流行語ができる過程や、日常語のゆらぎを時系列分析や、確率伝播のモデルを検討しています。
経済指数を、ネットの言語情報から作る研究は、広告の効果測定や、社会的な大流行の予測の技術として、研究が進んでいるそうです。


テキストデータの統計科学入門」 金明哲 著 岩波書店 2009
テキストデータに形態素解析をしたりする点は異なりますが、 何らかの数値データになると、 多変量解析データマイニング の手法の出番になっています。 その部分を主に解説しています。
共起を指標にした ネットワーク分析 、時間を目的変数にして単語を説明変数にした 重回帰分析 による 時系列解析などが面白かったです。


ビッグデータを活かす技術戦略としてのテキストマイニング」 菰田文男、那須川哲哉 編著 中央経済社 2014
組織の知識を扱う方法としてテキストマイニングを論じています。
テキストマイニングを主軸にした技術経営の研究事例が8つ紹介されています。


特許情報のテキストマイニング 技術経営のパラダイム転換」 豊田裕貴・菰田文男 編著 ミネルヴァ書房 2011
特許情報が代表的ですが、技術開発などの情報を得るためにテキストマイニングをする場合、 重要な情報は、頻度の低い単語に含まれていると考えています。 ところが、こうしたロングテールの部分の分析には、 多変量解析 は適さない点を指摘しています。
解決策として提案されているのは、共起や係り受けなどによる単語のセットの探索と深堀りと、様々なテキストの探索です。
NMFによる関連度の解析や、 Q分析による構造の解析もあります。
この本では、年毎の変化を時系列分析として、よくしているのですが、 データの数値自体を見たり、年の違いで 層別する事が、分析の方法になっています。


Excelで学ぶテキストマイニング入門」 林俊克 著 オーム社 2002
Excelをベースにして、具体的にテキストマイニングを解説しています。


自然言語処理の基礎」 吉村賢治 著 サイエンス社 2000
自然言語処理の基礎」 奥村学 著 コロナ社 2010
両者とも、形態素解析、構文解析、意味解析、文脈解析の構成になっています。 文章を分解して、論理学的に分析しているのですが、筆者は目的がよくわからないでいます。


修理伝票のデータマイニング :市場品質管理の効率化」 堀聡 著 計測と制御 計測自動制御学会 2002
バスケット分析(アソシエーション分析)で、品質問題の候補の予兆を発見する話です。 この分析方法は、雑多なアプトプットが大量に出るところが、扱いの難しいところですが、 この記事では、属性の優先度を利用して、意味のある情報だけを抽出できるようにしたのが、ポイントのようです。


質的研究

質的データ分析法 原理・方法・実践」 佐藤郁哉 著 新曜社 2008
タイトルに「質的データ」とありますが、テキストデータの他に、映画、写真、絵画、彫刻、楽譜、振付譜などを指しています。 この本では、特にテキストデータを扱っています。 筆者は、「質的変数を含むデータの分析法」の本と思って読み始めたのですが、 「テキストデータの分析法」でした。
さらに、「テキストデータの分析法」と言っても、テキストを単語レベルに分けてから分析するテキストマイニングではないです。 この本では、「コーディング」としていますが、長いテキストを部分ごとに要約することで、原文の情報を見失わずに、分析していくところからになっています。 この後で、ストーリーを組み立てると、分析結果になり、論文にもなります。 いわゆるテキストマイニングは、元のテキストを単語レベルに分解してから、統計的に分析していくのに対して、 この本の質的データ分析法は、コーディングしてからも、元のテキストとは何度も行き来をして、分析を進める方法としています。 こうすることで、質的研究の論文にありがちな、説明不足や、偏った見方を避けます。
また、「質的データ分析法」となっていますが、内容をそのままタイトルにするのなら、 「質的研究の方法と、その論文作成の方法」とした方が誤解がないかもしれません。 著者の問題意識は、質的研究の論文の作り方にあり、そこをゴールとして、テキストデータの分析方法の話につながっています。
この本の分析法は、原文を隅々まで分析者が読み込んで、分割、要約、分類、再構成といった作業を何度も行ったり来たりしながら、精度を高めて行くものです。 この作業を効率的に進める方法として、QDAソフトと呼ばれるものがあるそうで、この本では、「MAXqda」というソフトを紹介しています。


質的研究法 臨床心理学をまなぶ」 能智正博 著 東京大学出版会 2011
臨床心理学の研究手段としての質的研究法の本です。
この本のデータは、研究者と対象者との会話から生まれるインタビューです。
・語られる内容には、それが語られる背景があるので、単純に出て来た言葉だけで考えない。
・インタビューの場合は、聞き手の聞き方に依存したデータにもなる。
・インタビューを文字データにする場合、「間」など、文字にならない情報もある。
・質的データの分析では、分析者の物の見方やとらえ方を自分で客観的に見るようにしていくことも大事。


質的研究入門 <人間の科学>のための方法論」 ウヴェ・フリック 著 春秋社 2011
600ページ以上もある本です。 質的研究と量的研究の組合せ方、質的データの種類、研究方法の種類について、それぞれを対比できる形で体系化しています。
テキストデータは、部分毎にラベルを付けて、後で参照しやすくする。


質的調査法を学ぶ人のために 」 北澤毅・古賀正義 著 世界思想社 2008
質的調査の個々の方法について、意味を論じている感じでした。


社会科学の考え方 認識論、リサーチ・デザイン、手法」 野村康 著 名古屋大学出版会 2017
社会科学の方法として、事例研究、実験、横断的・縦断的研究(多変量解析的な研究)、インタビュー、エスノグラフィーは・参与観察、アンケート、言説分析を挙げています。
方法論は、その方法は、事実や対象者とどのような関係にあるのかの話もあります。 エスノグラフィーは、客観性を重視する実証主義の方法ではなく、非実証主義の方法です。 研究対象を長い期間関わることによるメリットがありますが、この本では研究対象と一体化してしまうことで、 研究対象の物事の考え方から出られなくなるという指摘もあります。


質的社会調査の方法 他者の合理性の理解社会学」 岸政彦・石岡丈昇・丸山里美 著 有斐閣 2016
「質的社会調査」の本ですが、質的についての話はそれほど多くはなく、社会調査とは何かや、社会学とは何かという点の本になっています。
副題に「他者の合理性の理解」とありますが、この本で力説されているのは、 自分にとは大きく異なる生き方をしている集団や地域について、それが合理的になっている理由を理解しようとして調査をしている点でした。
データの分析の仕方ではなく、データを取るための手段や心構えについて、詳しく書かれています。


日記とはなにか 質的研究への応用」 アンディ・アラシェフスカ 著 誠信書房 2011
調べたい対象者から、調査の影響を与えずに情報を得るための方法として日記を使っています。
もともと書かれていた日記を研究のために使う場合と、 書いて欲しい内容を決めて書いてもらった日記を使う場合に分かれます。 後者については、自由記述欄のアンケートと似ていました。
この本の質的研究では、「行為者の立場になって、行為者の行動を理解する」という考え方は出て来ません。 知りたい内容の記述の発生回数を調べて、統計的に調べるのがこの本の研究の仕方でした。
テキストマイニングの方法では、「ほぼ同じ内容だけれども、使われている言葉や表現・文体が違う」ということを数えるには、 相当な量の学習データがないとできないと思いますが、この本の場合は、その部分は人がやってしまうことで研究が可能になっているように見受けられました。


エスノグラフィー

エスノグラフィー入門 <現場>を質的研究する」 小田博志 著 春秋社 2010
実際に調査をする学生向けの入門書です。柔らかな文体で、非常に読みやすい本でした。
・エスノグラフィーは、自分にとって、「異」となることを理解する研究。
・エスノグラフィーは、ディティール(細部)にこだわる。細部に答えがある。
・エスノグラフィーは、文脈(経緯や歴史)から抜き出して来るのではなく、文脈の中で理解しようとする。
・現場の調査は、「教えていただく」姿勢。調査する相手の都合や権利が第一。
・「問題」とは、「うまく説明できない何か」
・基本的に現地に行って研究するが、歴史的な事実の研究では、文献の調査が中心になることがある。
・素材が主、道具は従。分析を、既存の理論の当てはめの作業にしない。


最強の社会調査入門 これから質的調査をはじめる人のために」 前田拓也 他 編 ナカニシヤ出版 2016
「聞いてみる」、「行ってみる」、「やってみる」、「読んでみる」の4部構成になっていて、それぞれの中の章で、執筆者が違います。 16人の著者による、それぞれの社会調査の体験談を集めた本になっています。
共通しているのは、素人、新参者、初心者といった立場で、自分にとって馴染みのない事柄の世界に入ることになっていました。 そこから、社会学的な研究として価値のあるものが生まれてくるようです。




順路 次は 形態素解析

Tweet データサイエンス教室