线性回归 Linear Regression

一. 最小二乘法及其集合意义

1.1 问题展示

1.2 数据集的矩阵表示

$X = (x_1 x_2 ... x_n)^T = \begin{pmatrix} x_1^T \\\\ x_2^T \\\\ ... \\\\x_N^T \end{pmatrix} = \begin{pmatrix} x_11 & x_12 & ... & x_1p \\\\ x_21 & x_22 & ... & x_2p \\\\ ... & ... & ... & ... \\\\ x_N1 & x_N2 & ... & x_Np \end{pmatrix}$

1.3 最小二乘估计

$L(\omega) = \sum_{i = 1}^N \parallel\omega^Tx_i - y_i \parallel^2 = \sum_{i = 1}^N (\omega^Tx_i - y_i)^2 \\\\ = (\omega^Tx_1 - y_1 \omega^Tx_2 - y_2 ... \omega^Tx_N - y_N) \begin{pmatrix}\omega^Tx_1 - y_1 \\\\ \omega^Tx_2 - y_2 \\\\ ... \\\\ \omega^Tx_N - y_N \end{pmatrix} \\\\ = \omega^T(x_1 x_2 ... x_N) - (y_1 y_2 ... y_N) \\\\ = (\omega^TX^T - Y^T)(\omega - Y)$
即
由于四项均为一维数值，且中间两项的矩阵形式互逆，因此中间两项数值相等，可以约去为

因此可得,

最终求得

其中称为X的伪逆，可直接通过编程套件求出

1.4 p维子空间的视角

加入我们以这样的视角来看

那么每个x是一个(1 x p) 的向量，整个矩阵则可以看作是一个p维的子空间(p x N).
Y则可以看作是在这个p维空间之外的一个向量. 这是因为是关于的线性组合，一定也位于这个p维子空间内。而由于噪声和不确定性的存在，Y不可能与某一个任何一个完全重合，因此一定在该子空间外部。
此时最优化的目标就是最小化噪声和不确定性，即最小化与子空间的距离，那么所求的一定位于在该平面的投影上(这里的这名目前还不是很清晰), 那么在平面上的法向量为. 由于法向量一定垂直于任何一维，最终可以得到

最终得

因此从几何角度来看是一样的。

二. 最小二乘法的概率视角

2.1 定义噪声

设噪声为

则实际的y值可理解为加上噪声，即

其中

由于服从正态分布，我们可以认为关于的线性变换也服从正太分布，即

因此可得概率密度函数

2.2 极大似然估计

由上节的概率密度函数，可得Y的似然函数
$L(\omega) = logP(Y\vert X; W) \\\\ = log\prod_{i=1}^NP(y_i\vert x_i; \omega) \\\\ = \sum_{i=1}^NlogP(y_i\vert x_i; \omega) = \sum_{i=1}^Nlog (\frac{1}{\sqrt{2} \sigma} \exp^{\frac{(y - \omega^Tx)^2}{2\sigma^2}}) \\\\ = \sum_{i=1}^N(log\frac{1}{\sqrt{2} \sigma} - \frac{1}{2\sigma^2} (y_i - \omega^Tx_i)^2)$
因此可以根据极大似然法求得\omega的最优解

经化简可得

与最小二乘法一致，因此得证

2.3 结论

最小二乘估计等价于噪声为高斯分布的极大似然估计

三. 线性回归的正则化

3.1 引入正则化的原因

其中部分在很多情况下是不可逆的，往往是因为不满足N >> p。本质上还是样本数据相对于维度太少。
从计算上讲是不可求逆，从现象上将式过拟合
因此需要引入正则化

3.2 正则化的基本框架

第一项为损失函数，第二项为惩罚项

3.3 lasso正则化

3.4 ridge正则化

采用矩阵形式化简，得

经化简和求导，得

由于是一个半正定矩阵，它加上一个对角矩阵就一定是一个正定矩阵，因此一定可求逆。
从的数学形式看，L2正则化又名“权值衰减正则化”

四. L2正则化的概率视角

4.1 前提假设

由上文所述，标准LSE等同于噪音为Gaussian的MLE，因此已知

这里我们假设的也服从正态分布

因此可知

4.2 贝叶斯视角

其中分子两项已经在上文求出
因此根据最大后验概率估计(MAP)

带入化简，得

与L2正则化后的一致，因此得证

4.3 结论

L2正则化后的LSE MAP (noise is GD, prior is GD)

线性回归学习笔记