L0,L1,L2范式的区别?岭回归,Lasso回归

范数规则化有两个作用:
1)保证模型尽可能的简单,避免过拟合。
2)约束模型特性,加入一些先验知识,例如稀疏、低秩​等。

先讨论几个问题:
1)实现参数的稀疏有什么好处吗?
一个好处是可以简化模型,避免过拟合。因为一个模型中真正重要的参数可能并不多,如果考虑所有的参数起作用,那么可以对训练数据可以预测的很好,但是对测试数据就只能呵呵了。另一个好处是参数变少可以使整个模型获得更好的可解释性。

2)参数值越小代表模型越简单吗?
是的。为什么参数越小,说明模型越简单呢,这是因为越复杂的模型,越是会尝试对所有的样本进行拟合,甚至包括一些异常样本点,这就容易造成在较小的区间里预测值产生较大的波动,这种较大的波动也反映了在这个区间里的导数很大,而只有较大的参数值才能产生较大的导数。因此复杂的模型,其参数值会比较大。

1 L0范数

L0是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0。换句话说,让参数W是稀疏的。
但不幸的是,L0范数的最优化问题是一个NP hard问题,而且理论上有证明,L1范数是L0范数的最优凸近似,因此通常使用L1范数来代替。
在这里插入图片描述

2 L1范数-Lasso回归

L1范数是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。
L1正则化之所以可以防止过拟合,是因为L1范数就是各个参数的绝对值相加得到的,我们前面讨论了,参数值大小和模型复杂度是成正比的。因此复杂的模型,其L1范数就大,最终导致损失函数就大,说明这个模型就不够好。
在这里插入图片描述

3 L2范数-Ridge岭回归

也叫“岭回归”(Ridge Regression),也叫它“权值衰减weight decay”
但与L1范数不一样的是,它不会是每个元素为0,而只是接近于0。越小的参数说明模型越简单,越简单的模型越不容易产生过拟合现象。
L2范数即欧氏距离:
在这里插入图片描述
与岭回归模型类似,LASSO回归同样属于缩减性估计,而且在回归系数的缩减过程中,可以将一些不重要的回归系数直接缩减为0,即达到变量筛选的功能。之所以LASSO回归可以实现该功能,是因为原本在岭回归模型中的惩罚项由平方和改成了绝对值。

4 Lasso回归参数求解

由于目标函数的惩罚项是关于回归系数β的绝对值之和,因此惩罚项在零点处是不可导的,那么应用在岭回归上的最小二乘法将在此失效,不仅如此,梯度下降法、牛顿法与拟牛顿法都无法计算出LASSO回归的拟合系数。为了能够得到LASSO的回归系数,
下面将介绍坐标轴下降法。
L0,L1,L2范式的区别?岭回归,Lasso回归_第1张图片

参考
L0,L1,L2区别
从零开始学Python数据分析与挖掘

你可能感兴趣的:(数据挖掘笔记)