详细分析L1和L2正则化

正则化:用来控制模型复杂度,减少过拟合,提高泛化能力。一般通过在目标函数中增加惩罚项实现:
目标函数 + α倍的权重范数(L1 or L2),其中α控制正则化强弱。

L1正则化:
1.解空间的解释:加上了菱形约束,容易在尖角处碰撞出解
2.贝叶斯估计角度解释:假设w的先验分布服从拉普拉斯分布,在0点的概率要更高

L2正则化:
1.解空间角度解释:加了球形约束,等高线切在圆上
2.贝叶斯估计角度解释:假设w的先验分布服从高斯分布,在0点附近的概率更大且相近

相同点: 都可用于减小过拟合,提高模型泛化能力。
不同点: L1保证模型的稀疏性,可以让一部分特征的系数缩小到0,从而间接实现特征选择。所以L1适用于特征之间有关联的情况。L2保证模型的稳定性,让所有特征的系数都缩小,但是不会减为0,也就是参数的值不会太大或太小,它会使优化求解稳定快速。
【注:下面数学理论分析会解释为何L1会产生稀疏解,而L2只是对不同权重做不同程度的放缩】

 在实际使用中,如果特征是高维稀疏的,则使用L1正则实现特征选择;如果特征是低维稠密的,则使用L2正则,一般使用L2正则化模型效果更好。

正则化为何可以减小过拟合(减小模型复杂度)?

你可能感兴趣的:(算法岗面试,机器学习,深度学习,最优化理论)