品質 のデータには、「発生率」や「歩留」のように、確率や割合を表すデータがあり、これを目的変数にして分析することが、よくあります。
確率や割合の場合、0から1(100%)の間の値になります。
この値を使って、普通に回帰分析をすると、上の図のようになり、確率の予測値が0よりも小さかったり、1よりも大きかったりするようになります。
直線による近似は違う感じがします。
確率データの回帰分析は、 曲線の回帰分析 の一種です。
この場合は、
z = log( y / (1-y))
という式で、zを計算して、ZとXで回帰分析してから、逆変換して元のYに戻すと、うまく行くことがあります。
この変換は、
ロジット変換
と言います。
Yが0と1だけの場合は、確率のデータと似ているのですが、単純にロジット変換、という訳には行きません。 この場合は、 ロジスティック回帰分析 が役に立ちます。
順路 次は 回帰分析の予測区間