【精简推导】线性回归、岭回归、Lasso回归(最小二乘法)

线性回归

岭回归(Ridge)

Lasso回归

 

线性回归

线性回归模型方程形式:

矩阵形式:

线性回归的任务就是要构造一个预测函数来映射,输入的特征矩阵 X 和标签 y 的线性关系。这个预测函数的本质就是我们需要构建的模型,而构造预测函数的核心就是找出模型的参数向量 w

损失函数:

y_i是样本i的真实标签,是预测标签。

从损失函数可以看出其实这就是L2范式的平方。L2范式本质就是欧式距离(欧氏距离就是两点相减平方然后开根号)。因此损失函数在这里也是衡量真实值与预测值之间的距离,所以我们希望它越小越好。

即:

这就是SSE(Sum of Sqaured Error,误差平方和)或者RSS(Residual Sum of Squares 残差平方和)

有了损失函数我们就来盘它

矩阵运算规则:

  和

所以上式有:

矩阵求导规则(下面\alpha代表常数)有:

所以上式等于:

让其一阶导数为0,因此有:

左乘一个,则最后的结果有:

这就是它的最终结果,最小二乘法推导很简单,但是有一个前提就是,的逆矩阵一定要存在(充分必要条件是特征矩阵不存在多重共线性(可以理解为矩阵的行列式结果不等于0)

【精简推导】线性回归、岭回归、Lasso回归(最小二乘法)_第1张图片

矩阵求逆矩阵公式:

 

One more thing

RSS残差平方和,它的本质是预测值与真实值之间的差异,我们只知道求解它的最小值,因为不能为负数因此越接近0越好,

但是由于它的和是一个无限大的和,求解它的最小值,究竟它要多小才算我们的模型训练好了呢?

回归问题的另外两个损失函数(评价指标):MSE(均方误差,mean squared error),R^2越接近1,越好

R^2中,分子是真实值和预测值之差的差值,也就是我们的模型没有捕获到的信息总量,分母是真实标签所带的信息量(像极了方差公式),所以其衡量的是1 - 我们的模型没有捕获到的信息量占真实标签中所带的信息量的比例,所以, 越接近1越好。

--------------------------------------------------------------分割线--------------------------------------

 

线性回归能够用最小二乘法求解的前提条件就是需要特征矩阵不存在多重共线性(不然矩阵行列式为0,就无法求可逆矩阵了)

岭回归和Lasso的存在就是为了来修补这个漏洞的。

岭回归(Ridge)

岭回归就是在线性回归的损失函数后面加了一个L2正则化项

前半部分已经推导过了,后半部分很简单

最后得到:

从这里可以看书,即时的行列式等于0,那么加上一个\alpha I ,肯定存在一个,总体的行列式不为0的情况,因此

总体的逆矩阵肯定存在。这就避免了线性回归的漏洞了。

 

Lasso回归

lasso回归就是在线性回归的式子后面加了一个L1正则化

前半部分很熟悉了,后半部分与岭回归有一些不同

从这了可以看到,Lasso回归和岭回归区别很大,求导的式子中发现,似乎无法解决高度共线性问题。但是在现实生活中,一般是很少会遇到数据是精确相关(样本特征之间存在直接的倍数关系)的,因此可以假设X^TX的逆矩阵是存在的。

那么我们就有:

Lasso不是从根本上解决多重共线性问题,而是限制多重共线性带来的影响。

以上两个回归都加了正则化,正则化都会起到压缩系数w 的大小.对标签贡献少的特征,最后系数会更小,也更容易被压缩。不过,L1正则化和L2正则化的区别是:L2正则化会将系数压缩到接近0(不等于0),但L1正则化主导稀疏性,会将系数压缩到0(因此也说明Lasso回归可以用来做特征选择)

 

推荐资料: https://live.bilibili.com/12582510

你可能感兴趣的:(机器学习)