机器学习面试题之——简单解释正则化为什么能减小模型复杂度

理论上,从VC维的角度可以解释,正则化能直接减少模型复杂度。(公式理论略)

直观上,对L1正则化来说,求导后,多了一项η * λ * sgn(w)/n,在w更新的过程中:

当w为正时,新的w减小,当w为负时,新的w增大,意味着新的w不断向0靠近,即减小了模型复杂度。(PS:也是为什么L1能得到稀疏解的一个参考答案)

对L2正则化来说,一方面,w的更新过程为:

若没有L2,则w前面的系数为1,η、λ、n都是正的,所以 1−ηλ/n小于1,它的效果是减小w,这也就是权重衰减(weight decay)的由来。当然考虑到后面的导数项,w最终的值可能增大也可能减小。

模型的过拟合是因为考虑了过多的“不合适”样本点,这样,求导的时候,导数值很大,而自变量的值可大可小,所以意味着系数w要很大,所以当我们让w减少的时候,即意味着忽略这些样本点,即减小了模型的复杂度,解决了过拟合。

参考:https://www.cnblogs.com/alexanderkun/p/6922428.html

 

你可能感兴趣的:(机器学习面试题)