トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

画像認識と音声認識

画像認識や音声認識には、人間に近かったり、人間以上の能力が期待されています。 人工知能 の入力データを作る技術として重要です。

画像認識や音声認識に共通した技術は、 パターン認識 です。 実際の「画像」や「音声」を扱うには、これらのデータの特徴を 特徴量エンジニアリング で捉えることも、認識の技術として重要です。

画像認識

画像のデータは、格子状の座標に色の値を持ったデータになります。

「隣り合った格子は、同じ数値になりやすい」、 「輪郭がシャープだと、隣合った格子は、数値の差が大きくなる」と言った特徴があります。

音声認識

文字になっている言葉に対して、分析したり、応答文を作るだけでも、 形態素解析 など、相当な技術が使われています。

元のデータが、文字になる前の音声データの場合や、できた文を音声として出力するには、さらに別の技術がいります。 音声認識を扱っている本には、このあたりの話も説明されています。

筆者が特に知りたかったのは、「あ」や「か」のような音素を、 音の波形データからどのように取り出すのかの方法でしたが、基本は周波数分析( スペクトル解析 )でした。 単一の音素を取り出すには、時系列データを区間で区切る必要がありますが、その切り方には減衰関数を使うなどのコツがありました。 母音はスペクトル(特徴的な周波数)で、 子音はスペクトルの変化量で判断できるそうです。

画像や音の認識

画像認識や音声認識は、画像や音のデータを文字情報に変換する技術を指していることが普通です。 文字情報になれば、コンピュータで扱えるようになります。

ところで、絵を見たり、音楽を聴く時は、頭の中で文字情報に変換していなくても、 「美しい」と感じたり、豊かな気分になったりします。

こういった話と、このページの話にまたがるような話は、筆者はまだ知らないです。

画像や音のデータからの寄り道

抽象的になりますが、画像データ(静止画)には、空間データ(座標データ)としての特徴があります。 音声データには、時系列データ(方向のあるデータ)としての特徴があります。

空間データを扱う分野としては、 空間統計学 があります。 また、 ディープラーニング には、 畳み込みニューラルネットワーク(CNN) があります。

時系列データを扱う分野としては、 時系列解析 があります。 また、 ディープラーニング には、 再帰型ニューラルネットワーク(RNN) があります。



大量の文章があるのですが、要約を自動で作れませんか?

データフィジクス(データ物理学)

参考文献

音声認識

音声認識の本には、認識の後に、 自動作文 につなげる話まで書かれているものもあります。


イラストで学ぶ音声認識」 荒木雅弘 著 講談社 2015
音声処理では、人間の耳と同じ処理をしてから、人間の脳と同じ処理をする事で、音のデータから、音素を取り出します。 脳の働きの部分は、ディープラーニングを使うようになって来たそうです。 この本は、意味の把握や、自動対話システムまでつながり、自分で試せるソフトも紹介しています。


フリーソフトでつくる音声認識システム パターン認識・機械学習の初歩から対話システムまで」 荒木雅弘 著 森北出版 2017
パターン認識や機械学習の解説が前半で、 具体的な音声認識システム作りが後半になっています。 音声データから音素を拾う話は少なめです


音声認識」 篠田浩一 著 講談社 2017
学術的な様々な研究がコンパクトにまとまっています。
雑音対策や話者認識などにもページが割かれています。


新音響・音声工学」 古井貞煕 著 近代科学社 2006
音響と音声でだいたい半分ずつの内容です。 音響は、波の理論や、音響機器の話があります。 超音波を、測定器やエネルギー源として使う話もあります。
音声関係は、100ページ程度ですが、コンパクトに高度な話まで詰まっています。 話者の認識もありました。


音声言語処理の潮流」 白井克彦 編著 コロナ社 2010
音声の生成、符号化、認識、合成などのいろいろなテーマについて、24人の執筆者で分担して書かれています。


画像認識

Python実践データ分析100本ノック」 下山輝昌・松田雄馬・三木孝行 著 秀和システム 2019
20ページが画像認識の解説になっています。 20ページだけですが、「人通りの変化」といったことができるまでの内容になっています。 画像認識の技術として、画像の中で人のいる場所を四角い枠で囲む技術や、目や鼻の位置に印を付ける技術をよく見かけますが、 それもできるようになっています。
人の部位の特徴量を使って、画像の中から該当する場所を見つける技術の紹介になっています。
ソースコードは、ネット上にも公開されているので、すぐに試せるようにもなっています。


拡散モデル データ生成技術の数理」 岡野原大輔 著 岩波書店 2023


画像認識の比較的古い本

パターン認識機械学習 の本の中では、手法の解説の後に、画像認識への適用の話がされることが多いです。 下記は、それらの本には出てこない内容です。


コンピュータのパターン認識」 長尾真 著 東京大学出版会 1985
輪郭を出す研究が中心でした。 この本の頃は、これだけでも、満足できるレベルは難しかったそうです。
画像認識で当時の成功例は、航空写真から、農地や住宅地といった情報を読み取る技術でした。
光の当たり方や見る範囲と画像認識の関係や、物の奥行きなどの話もありました。 近年の画像認識は、判別問題の技術が話題になっていますが、「朝方、親子が鳥を見つけた」などの画像になっている状況や、 画像処理、画像の技術的や芸術的な分析といった事に広がる時に必要な話、と思いました。


パターン認識」 舟久保登 著 共立出版 1991
比較的新しいパターン認識の本にはなく、この本にはある内容としては、「構文型解析」があります。 例えば、「人の顔」を直接認識するのではなく、「目と鼻があるから、人の顔がある」というようにして、文法のようにして認識します。 この方法は、言葉の解析方法の応用ですが、 言葉の場合は、単語が一次元(一列)になっている事や、文法が単語の並び方を決めているに対し、 画像の場合は、自由度が高いので、なかなか難しいそうです。
奥行きや、画像のさまざまな処理、顔の特徴量の決め方の話もあります。
この本では、画像データから、パターンを認識するには、様々な事前の作業が必要になるので、 それらをひとつの手順でやってしまう方法として、 ニューラルネットワーク に多大な期待を寄せられている話が最後にありました。


順路 次は 自動作文

データサイエンス教室