このサイトで「ラベル分類」の手法としてまとめた手法は、 機械学習 の分野では、単に「分類」と呼ばれている手法になります。 判別分析 、 ロジスティック回帰分析 、 サポートベクターマシン などが当てはまります。
「ラベル」というのは、 回帰分析 では「Y」に使うデータです。 ただし、ラベル分類の場合は、Yは質的データです。 例えば、「合格・不合格」のようなデータになります。
一般的な意味での「分類」だと、 変数の類似度の分析 、 カテゴリの類似度の分析 、 サンプルの類似度の分析 といったラベルのない手法も「分類」の手法と言えてしまうため、ここでは「ラベル分類」としました。
ラベル分類は、大きく分けると2段階の手順になっています。
ラベル分類は、大きく分けると2つの使い道があります。
たくさん変数があって、どの変数がラベルの違いと関係しているかがわからなかったとします。
そんな時、「この変数の大小関係と、ラベルの違いに関係が見られる」という事がわかれば、その変数がラベルの違いの要因と考えられます。
例えば、1つの変数の中に、AとBという2つの値があって、それに関係するXのデータを持っているとします。 そんな状況で、AかBかが未知のXのデータがある時に、AとBのどちらになるのかを推測する問題は、「判別問題」と呼ばれています。
ラベル分類には、いくつかのアプローチがあります。
なお、このサイトでは、判別分析と、判別分析と似た部分のある手法を「ラベル分類」の子ページにしています。 それ以外のものは、判別分析の延長では考えられないような使われ方もするので、別の分類にしています。
ラベル分類の方法によって、分類してみます。
モデルをひとつのラベルで作る方法は、 1クラスモデル と呼ばれています。 例えば、「A」というラベルでモデルを作った場合、 「Aとは考えにくいからB」、というようにして、「B」であることを判定します。 ちなみに、これは、 検定 と同じ手順です。
古典的な 論理学 は、「真」と「偽」の2種類を扱うための方法論です。 「二値論理」とも呼ばれます。 論理学の比較的新しいものには、二値よりも多い多値論理があります。
ほとんどのラベル分類の方法は、目的変数Yが「0と1」、「‐1と1」、「白と黒」のように二値になっていることを前提としています。
古典的な 統計学 も「真」と「偽」を扱うものが多いですし、 コンピュータは電気のプラスとマイナスの性質を使って作られていますので、二値のパターン認識には様々なものがあります。
ソフトにもよりますが、 ニューラルネットワーク や 決定木 では、目的変数や説明変数に多値を扱えるものもあります。
多値を扱う場合は、 多対多の分析 が使えたりもしますが、理論的なバリエーションはそれほどないようです。
「パターン認識」と呼ばれている手法は、ラベル分類の手法と同じです。 違いがあるとすれば、「パターン認識」として解説されている時は、 画像認識 の技術としてラベル分類を使う話になっていることが多いことかもしれません。
コンピュータにとっての画像のデータは、 色と位置のデータの集まりでしかないので、 そのデータから、「字」であるとか、「人の顔」であるとかの情報を得るには、 何かしらの作業が必要です。 その作業を「パターン認識」と言っています。
「パターン認識」 平井有三 著 森北出版 2012
パターン認識とは、パターンに対して名前を当てる操作。
構文解析や画像認識を具体的な対象にしています。
構文解析の実際は、「照合」と「推定」な感じ、画像認識は「修正」と「変換」な感じでした。
「はじめてのパターン認識」 舟久保登 著 共立出版 1991
様々な手法の数学的なところを、コンパクトにまとめています。
ベイズ統計
、
判別分析
、
主成分分析
、
ニューラルネットワーク
、
クラスター分析
等の高度なものも出てきます。
ちょっと詳しく調べたい時にいいかな、と思いました。
「わかりやすいパターン認識」 石井健一郎 他 著 オーム社 1998
ベイズ決定則に基づく期待損失最小化学習、というのがパターン認識の根幹として、重要視されています。
ニューラルネットワーク
も、これに含まれる、という立場です。
また、区分線形識別を中心に説明が進むのですが、ニューラルネットワークは、これと本質的に同じものとしています。
「パターン認識と学習の統計学」 甘利俊一・麻生英樹・津田宏治・村田昇 著 岩波書店 2003
この本は、
パターン認識の手法全般、
カーネル法
、
バギングとブースティングの
3つの部分に分かれていて、それぞれの著者が異なります。
サンプルが少ない場合は、事前知識(
メタ知識
)を利用することも解説しています。
事前知識とは、「解析対象が文字である。」、「DNAである。」、「音声である。」、と言ったことです。
「パターン認識と機械学習」 C. M. ビショップ 著 シュプリンガー・ジャパン 2007
副題は「ベイズ理論による統計的予測」です。
かなり専門的な内容が紹介されています。
筆者のように、この分野の知識や動向に詳しくない読者には、不明点がたくさんあります。
このサイトでも出てくる手法が、パターン認識や機械学習の手法として紹介されています。
「統計的機械学習 ‐生成モデルに基づくパターン認識」 杉山将 著 オーム社 2009
最尤推定法・
ベイズ推定法
を中心に、各種の推定法を解説しています。
この本では、
「パターン認識器 = 任意のパターン X を、それが属するカテゴリ Y に対応付ける(変換する・写像する)」
です。変換するものが、識別関数と呼ばれます。したがって、
「パターン認識 = 識別関数の構成問題」
です。
「統計的パターン認識入門」 浜本義彦 著 森北出版 2009
細かな手法が体系的にまとめられている点は良いのですが、
手法の内容は理解しにくいです。
「質感の科学 知覚・認知メカニズムと分析・表現の技術」 小松英彦 編 朝倉書店 2016
パターン認識は、画像に何が映っているのを認識する話が多いですが、この本は、どのように映っているのかの話に、踏み込んでいます。
応用としては、透明ではないものの画像に、透明感を持たせているものがあります。
真珠の鑑定を機械でできるような研究もあります。
この本は、主に画像ですが、オノマトペのように言葉の質感の研究もあります。
「パターンの発見 ―離散数学―」 有澤誠 著 朝倉書店 2001
上記のパターン認識は、
現象(起きていること)を「モデル化」して、そのモデルから現象のパターンを読み取るための方法です。
ところで、実は「モデル化」の部分で、モデルを選んだ人は現象のパターンを、抽象的に読み取っています。
そうでなければ、モデルを選べません。
そういう意味で、「パターン認識」は2段階の手順になっています。
大抵のデータサイエンス関連の文献は、2段階目の話しか扱っていません。
しかし、1段階目のパターンを読むことは、
データサイエンス
を使いこなすには大事です。筆者(私)の感想です。
内容は、データサイエンスに直結するような数学についての考え方です。
数学っぽくない数学の本です。
順路 次は 混同行列