【机器学习】线性回归最小二乘估计与正则化岭回归

借用李航老师的思想,我们将按模型+策略+方法的步骤来介绍内容。

1. 数据提出

【机器学习】线性回归最小二乘估计与正则化岭回归_第1张图片

X为总体样本,共有N个样本。

xi为单个样本,每个样本包含P个维度的特征。

Y为标签。

2. 最小二乘估计

2.1 模型

2.1.1 模型提出

y = f(w) + \varepsilon = w^{T}x + \varepsilon ,\varepsilon ~ N(0,\delta ^{2}) ,w^{T}x ~N(w^{T}x,0),y ~ N(w^{T}x,\delta ^{2})

2.2 策略

L(w)=\sum_{i=1}^{N}\left \| w^{T}x_{i} - y_{i} \right \|^{2}

2.2.1 策略来源 - 几何视角

w^{T}x_{i} - y_{i} 为每个样本的预测值w^{T}x_{i}与真实值y_{i}的距离,该距离可以理解为噪声为正态分布的\varepsilon的标准差。\sum_{i=1}^{N}\left \| w^{T}x_{i} - y_{i} \right \|^{2}可以理解为噪声为正态分布的\varepsilon的方差。我们的目标是使这一方差达到最小,从而最大化减少损失。因此,从几何的角度,即减少每一个预测值到真实值的距离从而减少损失,提出了该策略。

2.2.2 策略来源 - 概率视角

已知 y ~ N(w^{T}x,\delta ^{2}), 根据该分布,可以用最大似然估计,找到使似然最大的最优参数。

以下是从概率角度出发的得到的策略推导过程【机器学习】线性回归最小二乘估计与正则化岭回归_第2张图片

2.3 算法

\widehat{w} = (X^{T}X)^{-1}X^{T}Y

2.3.1 算法推导

【机器学习】线性回归最小二乘估计与正则化岭回归_第3张图片

 L(w) = (W^{T}X^{T} - Y^{T})(XW - Y)

           = W^{T}X^{T}XW - W^{T}X^{T}Y - Y^{T}XW + Y^{T}Y

           = W^{T}X^{T}XW - 2W^{T}X^{T}Y + Y^{T}Y

【机器学习】线性回归最小二乘估计与正则化岭回归_第4张图片

3.岭回归

3.1 模型

y = f(w) + \varepsilon = w^{T}x + \varepsilon ,\varepsilon ~ N(0,\delta ^{2}) ,w^{T}x ~N(w^{T}x,0),y ~ N(w^{T}x,\delta ^{2})

3.2 策略

L(w)=\sum_{i=1}^{N}\left \| w^{T}x_{i} - y_{i} \right \|^{2} + \lambda w^{T}w

3.2.1 策略来源 - 贝叶斯角度

【机器学习】线性回归最小二乘估计与正则化岭回归_第5张图片

3.3 算法

\widehat{w} = (X^{T}X + \lambda I)^{-1}X^{T}Y

3.3.1 算法推导

【机器学习】线性回归最小二乘估计与正则化岭回归_第6张图片

你可能感兴趣的:(线性回归,机器学习,机器学习,矩阵,概率论,线性代数)