トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

自動作文

テキストマイニング は、テキスト(言葉のまとまり)を分析するところまでの話です。 これはこれで有意義なのですが、これができるようになると、 「自動で要約をしたい」、「自動で翻訳をしたい」、「コンピュータと会話をしたい」と言った話につながって来ます。

定型文による応答

「○○は、××です。」と言った型はあらかじめ決めておき、 ○○や××の部分の候補は複数用意しておいて、 状況に応じて、適切そうなものを当てはめて返す方法です。

与えられた文章の情報が、うまく分けられて、あらかじめ用意したルールに乗せられるなら、 この仕組みで会話ができます。

これは、 人工知能 の比較的初期に実現された技術です。

自由な文章の作成

制限のない内容の質問に、柔軟に答えられるようにする技術も、発展して来ています。

大量のテキストデータから、 「この単語の後に、この単語が来る事はあり得ない。」といった情報を集計して行く事で、 「ありそうな単語の並び」が実現できるようになります。

その後は、どれだけ自然な並びにするのか、どれだけ意味のある並びにするのか、といった技術になります。 マルコフモデルを使って、次の文字や単語として、確率の高いものを学習し、推定する方法があります。 この理論を学んだり、実際に自分で作るのはそれなりに大変ですが、 スマートフォンや検索サイトで、文字入力を手伝う技術として、すでに身近な技術になっています



大量の文章があるのですが、要約を自動で作れませんか?

参考文献

定型文による応答

テキストマイニングの日報分析への適用」 住田一男、市村由美 著 品質管理 日本科学技術連盟 2001
過去のテキストから、知識の辞書を作っておくと、その辞書を使って集計できるようになります。
この記事の方法は、辞書の中の各単語に、「原因系」「結果系」という情報も入れておきます。 すると、「○○なので、××だ」という形で集計する事が可能になっています。


自由な文章の作成

自然言語処理と深層学習 C言語によるシミュレーション」 小高知宏 著 オーム社 2017
CNN で文の分類、 RNN で文の生成の話があります。


記号創発ロボティクス 知能のメカニズム入門」 谷口忠大 著 講談社 2014
「人工知能は意識や心を持つのか?」という話には、「そもそも意識や心とは何か?」、という話がついて回ります。
著者はそのような議論ではなく、「実際に物を作って、作ったものから意義を考える」、という姿勢です。
この本の具体的な内容は、言葉を学んで、言葉を発する事ができるシステムの開発です。 言葉を学ぶ技術のひとつとして、 形態素解析クラスター分析 が紹介されています。
この本には、技術書であると同時に、著者のような「構成論的アプローチ」や、 著者の理論の 社会システム理論 との関連など、哲学的な話もあります。


自由な文章による応答

ゼロから作るDeep Learning 2 自然言語処理編」 斎藤康毅 著 オライリー・ジャパン 2018
再帰型ニューラルネットワーク(RNN) による文章生成の章があり、そこを目指した解説になっています。


15Stepで踏破 自然言語処理アプリケーション開発入門 PythonとKerasで基礎から一巡」 土屋祐一郎 著 リックテレコム 2019
機械学習の解説に多くのページを使って、その合間に形態素解析や、単語のベクトル化を解説しているような構成になっています。


なぜ人工知能は人と会話ができるのか」 三宅陽一郎 著 マイナビ出版 2017
言語で表現するとは、どういうことかと話から始まって、人工知能全体の話になっています。 生成文法 の話も少しあります。
著者は、ゲーム用のAIの開発が本業とのことで、ゲーム用のAIを使った例が多いです。
現在のAIでできないこととして、身体的な言語の体験、メタファーの使用、定性的な推論を挙げています。


Pythonプログラミングパーフェクトマスター」 金城俊哉 著 秀和システム 2016
前半は、Pythonの入門書です。 後半は、主に会話するAIの作り方です。 オウム返し、用意された文をランダムに返す、感情パラメタを変えて反応する、形態素分析で自分で辞書を増やす、 マルコフモデルでそれらしい次の単語を選ぶ、といった順で、 より自然な会話ができるような仕組みになっていました。


自然言語処理ことはじめ 言葉を覚え会話のできるコンピュータ」 荒木健治 著 森北出版 2004
対話システムの実力を、赤ちゃんにどれだけ近いかで説明しています。


深層学習による自然言語処理」 坪井祐太・海野裕也・鈴木潤 著 講談社 2017
自然言語を ディープラーニング で扱うには、記号をベクトルにしたり、知識を組み込む必要がある、と言った話の本です。


音声

イラストで学ぶ音声認識」 荒木雅弘 著 講談社 2015
この本は、 音声認識 から、音声認識意味の把握や、自動対話システムまでつながり、自分で試せるソフトも紹介しています。


フリーソフトでつくる音声認識システム パターン認識・機械学習の初歩から対話システムまで」 荒木雅弘 著 森北出版 2017
パターン認識や機械学習の解説が前半で、 具体的な音声認識システム作りが後半になっています。 音声データから音素を拾う話は少なめです。
対話システムが終点になるのですが、電車の予約システムのように、予め会話の流れが決まっているタイプでした。


フリーソフトではじめる機械学習入門」 荒木雅弘 著 森北出版 2014
機械学習 全般の本ですが、ニューラルネットワークから、ディープラーニングまでの流れがコンパクトにまとまっています。
「系列データの識別」という章で、HMM(Hidden Marcov Model :隠れマルコフモデル)を紹介しています。 「Kaldi」という音声認識のツールがあり、その中では ディープラーニング も使われているそうです。


機械翻訳

アナロジーによる機械翻訳」 佐藤理史 著 共立出版 1997
1980年代の機械翻訳は、構文トランスファー方式で、形態素解析、文の構造、変換(翻訳先の文の構造に組み直し)、生成の順番になっている。 この方式の問題点は、実装が人による膨大な作業になる点。
1985年に京都大学の長尾教授が、アナロジーによる機械翻訳を始めている。
アナロジーによる機械翻訳では、翻訳例をたくさん用意して、一番近いものを真似る。 (近傍法と似たアプローチをしてます。)


機械翻訳の原理と活用法 古典的機械翻訳再評価の試み」  新田義彦 著 明石書店 2012
構文トランスファー方式による翻訳の解説を通して、機械翻訳の仕組みを解説しています。 この本では、機械翻訳は人による翻訳の補助的な手段として位置付けています。


順路 次は 人工の心

データサイエンス教室