Logistic regression为什么不用Square error做loss function?

假设训练样本为 (xi,yi),f(xi)=11+exp((wx+b))
采用类似Linear regression的损失函数Square error: 12ni=1l(f(xi)yi)2
那么令其对 w 求导,得到以下

12i=1nl(f(xi)yi)w=12i=1n2l(f(xi)yi)f(xi)w=12i=1n2l(f(xi)yi)f(xi)zzw=12i=1n2l(f(xi)yi)f(xi)(1f(xi))xi

所以,

yi=0 时,若 f(xi)=0 ,则上式为0,符合loss;若 f(xi)=1 ,则上式也为0,不符合loss;
yi=1 时,若 f(xi)=1 ,则上式为0,符合loss;若 f(xi)=0 ,则上式也为0,不符合loss;

再看看用suqare error和cross entropy做loss function的loss surface (图片来自台大李宏毅老师课件)
Logistic regression为什么不用Square error做loss function?_第1张图片

你可能感兴趣的:(Logistic regression为什么不用Square error做loss function?)