トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

データサイエンス教室

パターン認識

「パターン認識」というのは、コンピュータによる 画像認識 を指していることが多いです。 コンピュータにとっての画像のデータは、 色と位置のデータの集まりでしかないので、 そのデータから、「字」であるとか、「人の顔」であるとかの情報を得るには、 何かしらの作業が必要です。 その作業を「パターン認識」と言っています。

ところで、パターン認識は、 画像認識 よりももっと大きく捉えられることがあります。 パターン認識とは、「これは○○です。」、という判定をするための方法です。 悪意のあるメールの検出であるとか、契約を解約しそうな人の検出といったものも、パターン認識になります。

パターン認識の手順

パターン認識は、大きく分けると2段階の手順になっています。

パターン認識の使い道

パターン認識は、大きく分けると2つの使い道があります。

要因解析

パターン認識の1段階目だけを使います。

たくさん変数があって、どの変数がパターンの違いと関係しているかがわからなかったとします。

そんな時、「この変数の大小関係と、パターンの違いに関係が見られる」という事がわかれば、その変数がパターンの違いの要因と考えられます。

判別・予測

パターン認識の2段階目まで使います。

例えば、1つの変数の中に、AとBという2つの値があって、それに関係するXのデータを持っているとします。 そんな状況で、AかBかが未知のXのデータがある時に、AとBのどちらになるのかを推測する問題は、「判別問題」と呼ばれています。

パターン認識の種類

パターン認識は、いくつかのアプローチがあります。

なお、このサイトでは、判別分析と、判別分析と似た部分のある手法を「パターン認識」の子ページにしています。 それ以外のものは、判別分析の延長では考えられないような使われ方もするので、別の分類にしています。




手法による得意な分布の違い

手法による結果の違い

手法の使い分け

パターンを使う

参考文献

判別問題の本

パターン認識」  平井有三 著 森北出版 2012
パターン認識とは、パターンに対して名前を当てる操作。
構文解析や画像認識を具体的な対象にしています。 構文解析の実際は、「照合」と「推定」な感じ、画像認識は「修正」と「変換」な感じでした。


はじめてのパターン認識」  舟久保登 著 共立出版 1991
様々な手法の数学的なところを、コンパクトにまとめています。 ベイズ統計判別分析主成分分析ニューラルネットワーククラスター分析 等の高度なものも出てきます。 ちょっと詳しく調べたい時にいいかな、と思いました。


わかりやすいパターン認識」 石井健一郎 他 著 オーム社 1998
ベイズ決定則に基づく期待損失最小化学習、というのがパターン認識の根幹として、重要視されています。 ニューラルネットワーク も、これに含まれる、という立場です。 また、区分線形識別を中心に説明が進むのですが、ニューラルネットワークは、これと本質的に同じものとしています。


パターン認識と学習の統計学」 甘利俊一・麻生英樹・津田宏治・村田昇 著 岩波書店 2003
この本は、 パターン認識の手法全般、 カーネル法バギングとブースティングの 3つの部分に分かれていて、それぞれの著者が異なります。
サンプルが少ない場合は、事前知識( メタ知識 )を利用することも解説しています。 事前知識とは、「解析対象が文字である。」、「DNAである。」、「音声である。」、と言ったことです。


パターン認識と機械学習」 C. M. ビショップ 著 シュプリンガー・ジャパン 2007
副題は「ベイズ理論による統計的予測」です。
かなり専門的な内容が紹介されています。 筆者のように、この分野の知識や動向に詳しくない読者には、不明点がたくさんあります。 このサイトでも出てくる手法が、パターン認識や機械学習の手法として紹介されています。


統計的機械学習 ‐生成モデルに基づくパターン認識」 杉山将 著 オーム社 2009
最尤推定法・ ベイズ推定法 を中心に、各種の推定法を解説しています。
この本では、
「パターン認識器 = 任意のパターン X を、それが属するカテゴリ Y に対応付ける(変換する・写像する)」
です。変換するものが、識別関数と呼ばれます。したがって、
「パターン認識 = 識別関数の構成問題」
です。


統計的パターン認識入門」 浜本義彦 著 森北出版 2009
細かな手法が体系的にまとめられている点は良いのですが、 手法の内容は理解しにくいです。


その他

質感の科学 知覚・認知メカニズムと分析・表現の技術」 小松英彦 編  朝倉書店 2016
パターン認識は、画像に何が映っているのを認識する話が多いですが、この本は、どのように映っているのかの話に、踏み込んでいます。
応用としては、透明ではないものの画像に、透明感を持たせているものがあります。 真珠の鑑定を機械でできるような研究もあります。 この本は、主に画像ですが、オノマトペのように言葉の質感の研究もあります。


パターンの発見 ―離散数学―」 有澤誠 著 朝倉書店 2001
上記のパターン認識は、 現象(起きていること)を「モデル化」して、そのモデルから現象のパターンを読み取るための方法です。 ところで、実は「モデル化」の部分で、モデルを選んだ人は現象のパターンを、抽象的に読み取っています。 そうでなければ、モデルを選べません。 そういう意味で、「パターン認識」は2段階の手順になっています。 大抵のデータサイエンス関連の文献は、2段階目の話しか扱っていません。 しかし、1段階目のパターンを読むことは、 データサイエンス を使いこなすには大事です。筆者(私)の感想です。
内容は、データサイエンスに直結するような数学についての考え方です。 数学っぽくない数学の本です。


順路 次は 判別分析

Tweet