12.L1范数,L2范数

存在意义

监督学习的2个主题就是
  1. 最小化误差:模型拟合数据
  2. 规则化参数:防止过拟合

为了使模型简单,所以需要规则化
在保持模型单的情况下,使误差最小,可以得到泛化能力强的模型

规则化符合奥卡姆剃刀(Occam's razor)原理。即在所有可能选择的模型中,我们应该选择能够很好地解释已知数据并且十分简单的模型。

规则化是结构风险最小化策略的体现,是在经验风险上加一个正则化项(regularizer)或惩罚项(penalty term)。

L0与L1

L0范数是指向量中非0的元素的个数。是使权值W稀疏化。
L1范数是指向量中各个元素绝对值之和

L1范数和L0范数可以实现稀疏,L1因具有比L0更好的优化求解特性而被广泛应用。

稀疏有什么卵用?
  1. 特征选择:实现特征的自动选择。去除和最终的输出yi没有关系或者不提供任何信息的特征
  2. 可解释性:留下的非0参数少,更易理解

L2范式

L2范式:向量各元素的平方和然后求平方根。
L2范式可以改善过拟合问题
L2范数的规则项||W||2最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0,而是接近于0

12.L1范数,L2范数_第1张图片
过拟合与欠拟合

L2范数不但可以防止过拟合,还可以让我们的优化求解变得稳定和快速。下图左边是优化过后的效果,这样可以更快逼近最优值,而右边因为切点处很平缓,因此逼近最优解的速度缓慢。

12.L1范数,L2范数_第2张图片
左边是加了L2的效果,更易逼近最优解

L1使得大部分特征置0,但是L2并不会将特征都置0,只是尽量将参数“惩罚”为接近0的一个小值,这个惩罚力度由因子λ控制,λ越大,最终训练得到的w就越小(越接近0)。

你可能感兴趣的:(12.L1范数,L2范数)