画像認識や音声認識には、人間に近かったり、人間以上の能力が期待されています。 人工知能 の入力データを作る技術として重要です。
画像認識や音声認識に共通した技術は、 パターン認識 です。 実際の「画像」や「音声」を扱うには、これらのデータの特徴を 特徴量エンジニアリング で捉えることも、認識の技術として重要です。
画像のデータは、格子状の座標に色の値を持ったデータになります。
「隣り合った格子は、同じ数値になりやすい」、 「輪郭がシャープだと、隣合った格子は、数値の差が大きくなる」と言った特徴があります。
文字になっている言葉に対して、分析したり、応答文を作るだけでも、 形態素解析 など、相当な技術が使われています。
元のデータが、文字になる前の音声データの場合や、できた文を音声として出力するには、さらに別の技術がいります。 音声認識を扱っている本には、このあたりの話も説明されています。
筆者が特に知りたかったのは、「あ」や「か」のような音素を、 音の波形データからどのように取り出すのかの方法でしたが、基本は周波数分析( スペクトル解析 )でした。 単一の音素を取り出すには、時系列データを区間で区切る必要がありますが、その切り方には減衰関数を使うなどのコツがありました。 母音はスペクトル(特徴的な周波数)で、 子音はスペクトルの変化量で判断できるそうです。
画像認識や音声認識は、画像や音のデータを文字情報に変換する技術を指していることが普通です。 文字情報になれば、コンピュータで扱えるようになります。
ところで、絵を見たり、音楽を聴く時は、頭の中で文字情報に変換していなくても、 「美しい」と感じたり、豊かな気分になったりします。
こういった話と、このページの話にまたがるような話は、筆者はまだ知らないです。
抽象的になりますが、画像データ(静止画)には、空間データ(座標データ)としての特徴があります。 音声データには、時系列データ(方向のあるデータ)としての特徴があります。
空間データを扱う分野としては、 空間統計学 があります。 また、 ディープラーニング には、 畳み込みニューラルネットワーク(CNN) があります。
時系列データを扱う分野としては、 時系列解析 があります。 また、 ディープラーニング には、 再帰型ニューラルネットワーク(RNN) があります。
音声認識の本には、認識の後に、 自動作文 につなげる話まで書かれているものもあります。
「イラストで学ぶ音声認識」 荒木雅弘 著 講談社 2015
音声処理では、人間の耳と同じ処理をしてから、人間の脳と同じ処理をする事で、音のデータから、音素を取り出します。
脳の働きの部分は、ディープラーニングを使うようになって来たそうです。
この本は、意味の把握や、自動対話システムまでつながり、自分で試せるソフトも紹介しています。
「フリーソフトでつくる音声認識システム パターン認識・機械学習の初歩から対話システムまで」 荒木雅弘 著 森北出版 2017
パターン認識や機械学習の解説が前半で、
具体的な音声認識システム作りが後半になっています。
音声データから音素を拾う話は少なめです
「音声認識」 篠田浩一 著 講談社 2017
学術的な様々な研究がコンパクトにまとまっています。
雑音対策や話者認識などにもページが割かれています。
「新音響・音声工学」 古井貞煕 著 近代科学社 2006
音響と音声でだいたい半分ずつの内容です。
音響は、波の理論や、音響機器の話があります。
超音波を、測定器やエネルギー源として使う話もあります。
音声関係は、100ページ程度ですが、コンパクトに高度な話まで詰まっています。
話者の認識もありました。
「音声言語処理の潮流」 白井克彦 編著 コロナ社 2010
音声の生成、符号化、認識、合成などのいろいろなテーマについて、24人の執筆者で分担して書かれています。
「Python実践データ分析100本ノック」 下山輝昌・松田雄馬・三木孝行 著 秀和システム 2019
20ページが画像認識の解説になっています。
20ページだけですが、「人通りの変化」といったことができるまでの内容になっています。
画像認識の技術として、画像の中で人のいる場所を四角い枠で囲む技術や、目や鼻の位置に印を付ける技術をよく見かけますが、
それもできるようになっています。
人の部位の特徴量を使って、画像の中から該当する場所を見つける技術の紹介になっています。
ソースコードは、ネット上にも公開されているので、すぐに試せるようにもなっています。
「拡散モデル データ生成技術の数理」 岡野原大輔 著 岩波書店 2023
パターン認識 や 機械学習 の本の中では、手法の解説の後に、画像認識への適用の話がされることが多いです。 下記は、それらの本には出てこない内容です。
「コンピュータのパターン認識」 長尾真 著 東京大学出版会 1985
輪郭を出す研究が中心でした。
この本の頃は、これだけでも、満足できるレベルは難しかったそうです。
画像認識で当時の成功例は、航空写真から、農地や住宅地といった情報を読み取る技術でした。
光の当たり方や見る範囲と画像認識の関係や、物の奥行きなどの話もありました。
近年の画像認識は、判別問題の技術が話題になっていますが、「朝方、親子が鳥を見つけた」などの画像になっている状況や、
画像処理、画像の技術的や芸術的な分析といった事に広がる時に必要な話、と思いました。
「パターン認識」 舟久保登 著 共立出版 1991
比較的新しいパターン認識の本にはなく、この本にはある内容としては、「構文型解析」があります。
例えば、「人の顔」を直接認識するのではなく、「目と鼻があるから、人の顔がある」というようにして、文法のようにして認識します。
この方法は、言葉の解析方法の応用ですが、
言葉の場合は、単語が一次元(一列)になっている事や、文法が単語の並び方を決めているに対し、
画像の場合は、自由度が高いので、なかなか難しいそうです。
奥行きや、画像のさまざまな処理、顔の特徴量の決め方の話もあります。
この本では、画像データから、パターンを認識するには、様々な事前の作業が必要になるので、
それらをひとつの手順でやってしまう方法として、
ニューラルネットワーク
に多大な期待を寄せられている話が最後にありました。
順路 次は 自動作文