トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

手法による得意な分布の違い

判別分析ロジスティック回帰分析MT法決定木サポートベクターマシン は、目的変数Yがカテゴリデータになっている点が同じです。

解析の目的と、扱うデータによっては、同じ結果になることもありますが、 データの分布の仕方によっては、適さない手法を使ってしまうことがあります。

Yがどのようなデータであるのかとか、解析の目的でこれらの手法の使い方を説明することもできますが、 これらの手法が役に立つ場面を簡単な図にまとめてみました。 相関関係の探索 を目的にして、これらの手法を使う時には、特に重要な知識になります。

図は、YがAとBの2つで、説明変数が2つの場合です。

距離による判別分析の得意な分布・どの方法でも得意な分布

2つ以上の塊がある分布は、どの方法でも得意です。

距離による判別分析 は、2つ以上の塊がある分布に適しています。 それ以外は不得意です。

距離による判別分析では、それぞれの塊の中心からの距離を見ます。 線による判別分析では、この塊を分けるための境界線(正確には、境界超平面?)を探します。

ちなみに、 決定木 も境界を探しますが、ひとつの式で表せるような境界ではないです。 ロジスティック回帰分析MT法 は、境界を探しません。
label estimation

分布が塊になっていない場合

どの方法でも扱える分布は、カテゴリごとにサンプルが塊になっているような分布です。 サポートベクターマシンロジスティック回帰分析決定木 は、塊がなく、空間にサンプルが散らばっていて、散らばり方に偏りがあるような分布でも扱えます。

サポートベクターマシンの得意な分布

サポートベクターマシン は境界線が引ける辺りのサンプルだけを見るので、異なるカテゴリのサンプルが集まっている必要はありません。

ただし、ロジスティック回帰分析と違って、境界線を引こうとする方法なので、境界線らしいものがないような混ざり方をしている時は、適さないです。 具体的には、片方のデータ群の表れ方が0.5以上の領域がないと、エラーになります。
label estimation

ロジスティック回帰分析の得意な分布

サポートベクターマシン の得意な分布は、 ロジスティック回帰分析 も得意です。 さらに、 ロジスティック回帰分析 では、異なるカテゴリのサンプルは、だいたい分かれていたり、出方に偏りがあるものの、境界線らしいものがない混ざり方をしている時も得意です。

ロジスティック回帰分析は、「だいたい」というのを、確率を使って数値で表現できます。

例えば、ほとんどの領域でAの発生率が0で、一部の領域で最大で発生率が0.1になるような分布をしている場合、 ラベル分類 では、判別結果はすべてBになります。 多くの手法は、それ以上はわからないのですが、ロジスティック回帰分析では、低い確率を扱うモデルを作れます 例えば、左のようにBはAに比べて相当多く、偏りはなそうなものの、Aは左下に偏っているような時に、ロジスティック回帰分析では右図のような分析ができます。 この場合は、Bの割合がわかります。 一番Bが少ないところで、0.6くらいです。
label estimation label estimation

決定木の得意な分布

決定木 は、各軸に垂直に境界線を引いて行くので、各軸に垂直にデータが集まっていると、精度良く分割します。

各軸に垂直ではない線が、境界線になっている場合、垂直な境界線の組合せで近似するので、モデルが複雑になります。 空間の向きを変えるとシンプルに分割できるのに、 複雑な分割(モデル)になることがあります。
label estimation

分布が塊になっていないカテゴリがある場合

MT法混合分布MT法1クラス最小距離法 は、ひとつのカテゴリについては塊があって、塊になっていないカテゴリがあっても扱えます。

MT法の得意な分布

MT法 では、Aが集まっています。 正規分布を仮定しています。 MT法では、この群を 単位空間 と呼んでいます。

Bには、集まっていることや、正規分布の仮定がありません。 Bは、信号空間と呼びます。

MT法では、Bのサンプルの数が、モデルの精度に影響しません。1個でもモデルが作れます。
label estimation

混合分布MT法の得意な分布

混合分布MT法 は、正規分布が複数あるような分布の時に適しています。
label estimation

1クラス最小距離法の得意な分布

1クラス最小距離法 は、Aのサンプルの集まりがあって、Bが離れているような時に適しています。 Aの形は何でも良いです。
label estimation

もっと複雑な分布向きの手法

このページの例になっている分布は、わりとシンプルです。

もっと複雑になって来ると、まず、 MT法 では対応しきれなくなります。 決定木 で、ある程度の解析ができます。

判別分析ロジスティック回帰分析サポートベクターマシン については、 カーネル法 を追加することで、対応できるようになります。 ただし、カーネル法を使うとしても、AとBの境目があいまいなものは、判別分析や、サポートベクターマシンには不向きです。

ニューラルネットワーク や、 k近傍法 は、分布が複雑でも、境目があいまいでも、対応できます。 ただ、「対応できる」といっても、これらの手法には、結果の解釈の難しさや、精度の問題が出て来ます。




順路 次は 手法による結果の違い

Tweet データサイエンス教室