トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

判別分析

いわゆる「判別分析」は、 パターン認識 としては、古典的なものです。

それぞれの群の 平均値や分散(標準偏差) の値が重要になっていて、それぞれの群が 正規分布 である事を仮定しています。 そのため、物の性質など、分布の中心に意味があるデータでは、そのデータのもつ数理と合いやすいようです。

判別分析には、線による判別と、距離による判別の2種類があります。

線による判別

一般的には、直線で判別します。 場合によっては、2次曲線が使われることもありますが、それ以上、複雑な線は、この理論では使われません。
判別分析

線による判別とは、正確には、Xが2変数の時の話です。

また、Xが3変数の時には、直線ではなく平面、4変数以上だと、超平面が使われますが、 やることは「線」の理論と同じですので、ここでは「線」と書いています。

線による判別の考え方

ある線を使えば、その線のどちら側にデータがあるのかで、判別できると仮定します。 その線の式は、予測値が0より大きいか小さいかが、2群のどちらかを表すとします。

そうして、その式の係数を計算します。

判別分析とサポートベクターマシンとの違い

判別直線を計算する方法として、判別分析は古典的です。 比較的新しい方法に、 サポートベクターマシン があります。

判別分析は、全体的な分布がもっとも分かれるような判別直線を見つける方法です。

サポートベクターマシンは、判別直線付近のデータがもっとも分かれるように、判別直線を見つける方法です。 「判別を間違えやすいのは、判別直線付近のデータなので、間違いを減らしたいのなら、判別直線付近のデータを重点的に扱った方が良い」、 という考え方でできています。

距離による判別

マハラノビスの距離 を使って、 それぞれの群の中心からの距離を計算し、近い方の仲間と判断します。
判別分析

「中心からの距離を見よう」という発想の中に、それぞれの群が正規分布している事が仮定されています。

線による判別との接点

群がそれぞれ正規分布で仮定できるのなら、 2つの方法の出す答えは、同じになります。

距離による方法の中で、 それぞれの中心からの距離が同じになる点を結ぶと、2次曲線になります。 この曲線は、2群の分散が同じなら、直線になります。

発生確率の計算

検定 の理論の中で、「5%以下の確率かどうか?」、という話がありますが、 正規分布である事を仮定していますので、こういった確率の計算ができます。

判別分析とロジスティック回帰分析との違い

ロジスティック回帰分析 だと、AとBの確率の合計は、100%になるように計算されます。 ところが、判別分析の場合は、2つの群に対しての確率を独立して見るので、 「どちらの群の確率も20%以下」、という結果もあり得ます。 どちらが良いかは、解析の内容次第になります。




MT法

手法による得意な分布の違い

手法による結果の違い

手法の使い分け


順路 次は ロジスティック回帰分析

Tweet データサイエンス教室