トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

手法による得意な分布の違い

判別分析ロジスティック回帰分析MT法決定木サポートベクターマシン は、目的変数Yがカテゴリデータになっている点が同じです。

解析の目的と、扱うデータによっては、同じ結果になることもありますが、 データの分布の仕方によっては、適さない手法を使ってしまうことがあります。

Yがどのようなデータであるのかとか、解析の目的でこれらの手法の使い方を説明することもできますが、 これらの手法が役に立つ場面を簡単な図にまとめてみました。 因果関係の解析 を目的にして、これらの手法を使う時には、特に重要な知識になります。

図は、YがAとBの2つで、説明変数が2つの場合です。

判別分析の得意な分布 ロジスティック回帰分析の得意な分布 MT法の得意な分布

判別分析に適した分布

判別分析 では、2つのデータ群がそれぞれ空間内に集まっているイメージです。 より正確に言えば、正規分布の山が2つあることを想定しています。

判別分析では、この山を分けるための境界線(正確には、境界超平面?)を探します。

ちなみに、 決定木 も境界を探しますが、ひとつの式で表せるような境界ではないです。

ロジスティック回帰分析MT法 は、境界を探しません。

ロジスティック回帰分析に適した分布

ロジスティック回帰分析 では、2つのデータ群は、だいたい分かれますが、集まってはいません。 また、正規分布の仮定がありません。

ロジスティック回帰分析は、「だいたい」というのを、確率を使って数値で表現できます。

例えば、ほとんどの領域でAの発生率が0で、一部の領域で最大で発生率が0.1になるような分布をしている場合、 パターン認識では、判別結果はすべてBになります。 多くの手法は、それ以上はわからないのですが、ロジスティック回帰分析では、低い確率では発生する事を扱えます。

サポートベクターマシンに適した分布

判別分析に適した分布は、 サポートベクターマシン にも適しています。 しかも、正規分布していなくても大丈夫です。

ロジスティック回帰分析との違いは、片方のデータ群の表れ方が0.5以上の領域がないと、エラーになることです。

MT法に適した分布

MT法 では、Aが集まっています。 これも正規分布を仮定しています。 MT法では、この群を 単位空間 と呼んでいます。

Bには、集まっていることや、正規分布の仮定がありません。 Bは、信号空間と呼びます。

決定木に適した分布

決定木 は、3つの図のどれに対しても、不適当ということはありません。 そういう意味で、データの特徴的な部分をざっくりと見ておきたい時に向いています。

ただ、階層構造を使ってモデルを作るので、階層構造で説明する必要のないデータについては、 上記の3つの手法を使った方が結果の解釈が楽です。

もっと複雑な分布向きの手法

このページの例になっている分布は、わりとシンプルです。

もっと複雑になって来ると、まず、 MT法 では対応しきれなくなります。 決定木 で、ある程度の解析ができます。

判別分析ロジスティック回帰分析サポートベクターマシン については、 カーネル法 を追加することで、対応できるようになります。 ただし、カーネル法を使うとしても、AとBの境目があいまいなものは、判別分析や、サポートベクターマシンには不向きです。

ニューラルネットワーク や、 k近傍法 は、分布が複雑でも、境目があいまいでも、対応できます。 ただ、「対応できる」といっても、これらの手法には、結果の解釈の難しさや、精度の問題が出て来ます。




順路 次は 手法による結果の違い

Tweet データサイエンス教室