トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

手法による得意な分布の違い

判別分析、ロジスティック回帰分析、 MT法、決定木、サポートベクターマシンは、目的変数Yがカテゴリデータになっている点が同じです。

解析の目的と、扱うデータによっては、同じ結果になることもありますが、データの分布の仕方によっては、適さない手法を使ってしまうことがあります。

Yがどのようなデータであるのかとか、解析の目的でこれらの手法の使い方を説明することもできますが、これらの手法が役に立つ場面を簡単な図にまとめてみました。相関関係の探索を目的にして、これらの手法を使う時には、特に重要な知識になります。

図は、YがAとBの２つで、説明変数が２つの場合です。

距離による判別分析の得意な分布・どの方法でも得意な分布

2つ以上の塊がある分布は、どの方法でも得意です。

距離による判別分析は、2つ以上の塊がある分布に適しています。それ以外は不得意です。

距離による判別分析では、それぞれの塊の中心からの距離を見ます。線による判別分析では、この塊を分けるための境界線（正確には、境界超平面？）を探します。

ちなみに、決定木も境界を探しますが、ひとつの式で表せるような境界ではないです。ロジスティック回帰分析や MT法は、境界を探しません。
label estimation

分布が塊になっていない場合

どの方法でも扱える分布は、カテゴリごとにサンプルが塊になっているような分布です。サポートベクターマシン、ロジスティック回帰分析、決定木は、塊がなく、空間にサンプルが散らばっていて、散らばり方に偏りがあるような分布でも扱えます。

サポートベクターマシンの得意な分布

サポートベクターマシンは境界線が引ける辺りのサンプルだけを見るので、異なるカテゴリのサンプルが集まっている必要はありません。

ただし、ロジスティック回帰分析と違って、境界線を引こうとする方法なので、境界線らしいものがないような混ざり方をしている時は、適さないです。具体的には、片方のデータ群の表れ方が0.5以上の領域がないと、エラーになります。
label estimation

ロジスティック回帰分析の得意な分布

サポートベクターマシンの得意な分布は、ロジスティック回帰分析も得意です。さらに、ロジスティック回帰分析では、異なるカテゴリのサンプルは、だいたい分かれていたり、出方に偏りがあるものの、境界線らしいものがない混ざり方をしている時も得意です。

ロジスティック回帰分析は、「だいたい」というのを、確率を使って数値で表現できます。

例えば、ほとんどの領域でＡの発生率が０で、一部の領域で最大で発生率が0.1になるような分布をしている場合、ラベル分類では、判別結果はすべてBになります。多くの手法は、それ以上はわからないのですが、ロジスティック回帰分析では、低い確率を扱うモデルを作れます例えば、左のようにBはAに比べて相当多く、偏りはなそうなものの、Aは左下に偏っているような時に、ロジスティック回帰分析では右図のような分析ができます。この場合は、Bの割合がわかります。一番Bが少ないところで、0.6くらいです。
label estimation