机器学习笔记整理(二)——最小二乘法

1.最小二乘法

最小二乘法也叫做^{l_{2}}损失最小化学习法,适用于较小规模数据的学习,有过拟合的弱点。

梯度下降法是适用于大规模数据学习的算法,该方法的收敛速度依赖于梯度下降的步幅及收敛结果的判断方法。

 

2.带有约束条件的最小二乘法

原因:当参数较多时,求解参数及学习得到的函数的输出值的过程耗费大量的时间

优点:省时、防止过拟合

(1)部分空间约束的最小二乘法

只使用参数空间的一部分,保证参数θ不偏移到值域R(P)范围之外,通过正交投影矩阵P实现约束

如果使用主成分分析法求解该部分空间,则该方法为主成分回归PCA

约束条件:Pθ=θ

假设只有两个参数,约束后参数空间如下图所示:

机器学习笔记整理(二)——最小二乘法_第1张图片

问题:P的设置有很大的自由度,实际操作有较大难度。

(2)^{l_{2}}约束的最小二乘学习法

约束条件:||θ||^2≤R,可以转换为拉格朗日对偶问题求最优解

假设只有两个参数,约束后参数空间如下图所示:

机器学习笔记整理(二)——最小二乘法_第2张图片

(3)一般^{l_{2}}约束的最小二乘学习法

^{l_{2}}约束的最小二乘学习法相似,将参数的取值空间限制在椭圆形状的区域内。

 

3.稀疏学习

目的:将大部分参数置为0,用于正则化防止过拟合

 

特征选择:

  向前选择法、向后删除法:逐次试错,不充分考虑最优组合

  随意选择:面临维度灾难问题

  稀疏学习:考虑特征之间的联系,更适合稀疏学习

 

方法:

(1)^{l_{1}}约束的最小二乘学习法(Lasso回归)

使用L1范数作为约束条件,得到的参数的解位于最标轴上,这样得到的参数有若干个为0,也就达到了稀疏的目的。

如下图所示,黑色圆点为最优解,红色圆点为求得的解

机器学习笔记整理(二)——最小二乘法_第3张图片

(2)^{l_{p}}约束的最小二乘学习法

使用Lp范数作为约束条件

当p≤1时,Lp范数在坐标轴呈有峰值的尖形 ==> 存在稀疏解

当p>1时,Lp范数在坐标轴呈凸形 ==> 不是凸形的话,会存在局部最优解,优化起来很困难

(3)^{l_{1}}+^{l_{2}}约束的最小二乘学习法(弹性网回归学习法)

保留^{l_{1}}约束的尖形用来稀疏,同时保留^{l_{2}}约束的通用性

 

4.鲁棒学习

鲁棒性:在统计学领域和机器学习领域,对异常值也能保持稳定可靠的性质。

前提:最小二乘学习法容易受到异常值的影响。

方法

(1)^{l_{1}}损失最小化学习

原理:使用^{l_{1}}损失对残差的增幅加以抑制的学习算法,^{l_{1}}损失受异常值的影响较小

^{l_{1}}损失 ==> 残差的绝对值之和

缺点:高鲁棒性 ==> 学习效果差一些,训练样本与学习模型不十分吻合。

(2)Huber损失最小化学习(^{l_{1}}+^{l_{2}}损失

原理:使用一个阈值η判断正常值和异常值,正常值的损失函数为^{l_{2}}损失,异常值的损失函数为^{l_{1}}损失。

求解方法:反复迭代求解,反复加权最小二乘学习法。

(3)图基(Tukey)损失最小化学习

原理:对Huber方法的改进,Huber方法中,当残差较大时(异常值)学习权重也不会变为0,在Tukey方法中,对与较大残差的学习权重直接设置为0.

优点:有非常高的鲁棒性。

缺点:不是凸函数,存在多个局部最优解,数据的微小变化可能会产生其它最优解。

(4)^{l_{1}}约束的Huber损失最小化学习

原理:在Huber损失最小化学习的基础上加上^{l_{1}}约束,提高鲁棒性的同时预防过拟合。

你可能感兴趣的:(机器学习笔记整理(二)——最小二乘法)