线性回归拟合具有系数w =(w_1,…,w_p)的线性模型,最小化 通过预测模型得到的预测值和真实值之间的残差,其数学表达式如下:
岭回归通过对系数的大小施加惩罚来解决普通最小二乘的一些问题。 即在普通线性回归的基础上叠加上L2惩罚项,其数学表达如下:
Lasso是估计稀疏系数的线性模型。 它在一些情况下是有用的,因为它倾向于使用具有较少参数值的解决方案,有效地减少给定解决方案所依赖的变量的数量。 本质上,Lasso就是在普通的线性回归基础上加上了L1正则项为此,Lasso及其变体是压缩感测领域的基础。 在某些条件下,它可以恢复精确的非零权重集。其数学表达如下:
图同样的 α α 也是控制收缩量复杂的参数,需要注意的L1正则项更加倾向于得到特征的稀疏表达,即可能某些特征的权重被惩罚至0。
ElasticNet是一种带有L1正则项和L2正则项的线性模型。 这种组合允许学习一个稀疏模型,其中很少的权重是非零的,如Lasso,同时仍然保持Ridge的正则化属性。 我们使用l1_ratio参数控制L1和L2的凸组合。
当有多个相互关联的特征时,ElasticNet是有用的。Lasso有可能随机选择其中某一个特征,而ElasticNet会选择所有的特征。其数学表达如下:
前向逐步回归算法可以得到与lasso差不多的效果,但更加简单,它属于一种贪心算法。即每一步都尽可能的减小误差。每一步的决策是对某个权重增加或减小一个很小的值。其算法伪代码如下:
数据标准化,满足0均值和单位方差
在每轮的迭代过程中:
设置当前最小误差lowestError为正无穷
对每个特征:
增大或缩小:
改变一个系数得到一个新的W
计算新W下的误差
如果误差Error小于当前最小误差lowestError:设置Wbest等于当前W
将W设置为新的Wbest
逐步线性回归的主要优点在于它可以帮助人们理解现有的模型并作出改进。当构建了一个模型之后,可以运行该算法找出重要的特征,这样就可以及时停止对那些不重要特征的收集。
最小二乘回归(LARS)针对高维数据的回归算法。
LARS的优点是:
LARS方法的缺点包括:
LARS算法与前向逐步回归算法十分相似,LARS与前向逐步回归的主要差异是LARS在引入新属性是只是部分引入,引入数学过程并非不可逆。算法过程如下:
将所有的特征权重初始化为0
在每一步中,决定哪个属性与残差有最大的关联:
如果关联为正,小幅度增加关联系数
如果关联为负,小幅度减少关联系数
给待预测点附近的每个点赋予一定的权重,LWLR使用核来对附近的点赋予更高的权重,最常用的就是高斯核。
w(i,i)=|xi−x|−2k2 w ( i , i ) = | x i − x | − 2 k 2
集局部加权线性回归的一个问题就是增加了计算量。因为对每个点的预测都必须使用整个数据集。