「 ロジスティック回帰分析 は、どういう計何をしているのだろう?」ということを、視覚的に調べたページです。
ロジスティック回帰分析では、上の、左図のようなデータに対して、右図のような結果を出します。
この結果を出すため、ロジスティック回帰分析では、YとXを直接的に結び付けたモデルを作らないです。 途中を見てみます。
Yが二値なので、YとXの相関は低いです。 しかし、logitとXは完全に相関しています。 また、logitとprobabilityは、ロジット変換とプロビット変換 にある計算によって、決まっています。
よって、ロジスティック回帰分析で、近似の関係にあるのは、Yとprobabilityの間です。 ロジスティック回帰分析では、Xと完全に相関して、かつ、その変数を逆ロジット変換して求まる確率が、Yの近似値になるようになっている変数を見つけていることがわかります。
ロジットと確率という、2つの変数を仲介することで、YとXの関係性が表現されています。
ちなみに、決定木なら、「Xが50以上は1、Xが50未満は0」といったモデルになります。 ロジスティック回帰分析のモデルは、決定木と違って、明確な境界値がないようなデータの変化を表現できるようになっています。
上記の例は、 Rによるロジスティック回帰分析のページにコードがあります。
順路 次は 多項ロジスティック回帰分析