トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

画像認識と音声認識

画像認識や音声認識には、人間に近かったり、人間以上の能力が期待されています。人工知能の入力データを作る技術として重要です。

画像認識や音声認識に共通した技術は、パターン認識です。実際の「画像」や「音声」を扱うには、これらのデータの特徴を特徴量エンジニアリングで捉えることも、認識の技術として重要です。

画像認識

画像のデータは、格子状の座標に色の値を持ったデータになります。

「隣り合った格子は、同じ数値になりやすい」、「輪郭がシャープだと、隣合った格子は、数値の差が大きくなる」と言った特徴があります。

音声認識

文字になっている言葉に対して、分析したり、応答文を作るだけでも、形態素解析など、相当な技術が使われています。

元のデータが、文字になる前の音声データの場合や、できた文を音声として出力するには、さらに別の技術がいります。音声認識を扱っている本には、このあたりの話も説明されています。

筆者が特に知りたかったのは、「あ」や「か」のような音素を、音の波形データからどのように取り出すのかの方法でしたが、基本は周波数分析（スペクトル解析）でした。単一の音素を取り出すには、時系列データを区間で区切る必要がありますが、その切り方には減衰関数を使うなどのコツがありました。母音はスペクトル（特徴的な周波数）で、子音はスペクトルの変化量で判断できるそうです。

画像や音の認識

画像認識や音声認識は、画像や音のデータを文字情報に変換する技術を指していることが普通です。文字情報になれば、コンピュータで扱えるようになります。

ところで、絵を見たり、音楽を聴く時は、頭の中で文字情報に変換していなくても、「美しい」と感じたり、豊かな気分になったりします。

こういった話と、このページの話にまたがるような話は、筆者はまだ知らないです。

画像や音のデータからの寄り道

抽象的になりますが、画像データ（静止画）には、空間データ（座標データ）としての特徴があります。音声データには、時系列データ（方向のあるデータ）としての特徴があります。

空間データを扱う分野としては、空間統計学があります。また、ディープラーニングには、畳み込みニューラルネットワーク（CNN）があります。

時系列データを扱う分野としては、時系列解析があります。また、ディープラーニングには、再帰型ニューラルネットワーク（RNN）があります。

大量の文章があるのですが、要約を自動で作れませんか？

データフィジクス（データ物理学）

参考文献

音声認識

音声認識の本には、認識の後に、自動作文につなげる話まで書かれているものもあります。

「イラストで学ぶ音声認識」　荒木雅弘　著　講談社　2015
音声処理では、人間の耳と同じ処理をしてから、人間の脳と同じ処理をする事で、音のデータから、音素を取り出します。脳の働きの部分は、ディープラーニングを使うようになって来たそうです。この本は、意味の把握や、自動対話システムまでつながり、自分で試せるソフトも紹介しています。

「フリーソフトでつくる音声認識システム　パターン認識・機械学習の初歩から対話システムまで」　荒木雅弘　著　森北出版　2017
パターン認識や機械学習の解説が前半で、具体的な音声認識システム作りが後半になっています。音声データから音素を拾う話は少なめです

「音声認識」　篠田浩一　著　講談社　2017
学術的な様々な研究がコンパクトにまとまっています。
雑音対策や話者認識などにもページが割かれています。

「新音響・音声工学」　古井貞煕　著　近代科学社　2006
音響と音声でだいたい半分ずつの内容です。音響は、波の理論や、音響機器の話があります。超音波を、測定器やエネルギー源として使う話もあります。
音声関係は、100ページ程度ですが、コンパクトに高度な話まで詰まっています。話者の認識もありました。

「音声言語処理の潮流」　白井克彦　編著　コロナ社　2010
音声の生成、符号化、認識、合成などのいろいろなテーマについて、24人の執筆者で分担して書かれています。

画像認識

「Python実践データ分析100本ノック」　下山輝昌・松田雄馬・三木孝行　著　秀和システム　2019
20ページが画像認識の解説になっています。 20ページだけですが、「人通りの変化」といったことができるまでの内容になっています。画像認識の技術として、画像の中で人のいる場所を四角い枠で囲む技術や、目や鼻の位置に印を付ける技術をよく見かけますが、それもできるようになっています。
人の部位の特徴量を使って、画像の中から該当する場所を見つける技術の紹介になっています。
ソースコードは、ネット上にも公開されているので、すぐに試せるようにもなっています。

「拡散モデル　データ生成技術の数理」　岡野原大輔　著　岩波書店　2023

画像認識の比較的古い本

パターン認識や機械学習の本の中では、手法の解説の後に、画像認識への適用の話がされることが多いです。下記は、それらの本には出てこない内容です。

「コンピュータのパターン認識」　長尾真　著　東京大学出版会　1985
輪郭を出す研究が中心でした。この本の頃は、これだけでも、満足できるレベルは難しかったそうです。
画像認識で当時の成功例は、航空写真から、農地や住宅地といった情報を読み取る技術でした。
光の当たり方や見る範囲と画像認識の関係や、物の奥行きなどの話もありました。近年の画像認識は、判別問題の技術が話題になっていますが、「朝方、親子が鳥を見つけた」などの画像になっている状況や、画像処理、画像の技術的や芸術的な分析といった事に広がる時に必要な話、と思いました。

「パターン認識」　舟久保登　著　共立出版　1991
比較的新しいパターン認識の本にはなく、この本にはある内容としては、「構文型解析」があります。例えば、「人の顔」を直接認識するのではなく、「目と鼻があるから、人の顔がある」というようにして、文法のようにして認識します。この方法は、言葉の解析方法の応用ですが、言葉の場合は、単語が一次元（一列）になっている事や、文法が単語の並び方を決めているに対し、画像の場合は、自由度が高いので、なかなか難しいそうです。
奥行きや、画像のさまざまな処理、顔の特徴量の決め方の話もあります。
この本では、画像データから、パターンを認識するには、様々な事前の作業が必要になるので、それらをひとつの手順でやってしまう方法として、ニューラルネットワークに多大な期待を寄せられている話が最後にありました。

順路次は自動作文