机器学习-白板推导学习笔记-3线性回归

本篇文章是根据视频( link.)所作的学习笔记,旨在对机器学习的相关知识更好的理解和巩固。本人基础较弱,推导中看不懂的公式可能会细究,如果有理解不当之处也欢迎指出。

简单描述一下线性回归,即拟合出一条最适合数据x_{i}(红点们)分布的函数f(x)(蓝色直线),如下图所示:

机器学习-白板推导学习笔记-3线性回归_第1张图片

可以将该问题描述成数学公式: f(x)=\omega ^{T}x,为啥没有加噪声因素,先卖个关子。

· 数据介绍

D={(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})}

X=(x_{1},x_{2},...,x_{N})^{T}=\begin{bmatrix} x_{11} & x_{12} &... &x_{1p} \\ x_{21}& x_{22} &... &x_{2p} \\ ... & ... & ...& ...\\ x_{N1}& x_{N2}& ...& x_{Np} \end{bmatrix}_{N\times p}

Y=\begin{bmatrix} y_{1}\\ y_{2}\\ ...\\ y_{N} \end{bmatrix}_{N\times 1}

1 LSE and MLE

最小二乘估计LSE

f(x)=\omega ^{T}x是将要拟合出的曲线形式,下一步求取里面的参数\omega,这里使用最小二乘估计进行求解,损失函数为二范式的平方和(也可以理解为拟合值与真实值之差的平方和)。即:

     {\color{Red} L(\omega )=\sum_{i=1}^{N}\left \| \omega ^{T}x_{i}-y_{i} \right \|_{2}^{2}}=\sum_{i=1}^{N}(\omega ^{T}x_{i}-y_{i} )^{2} \\ =(\omega ^{T}x_{1}-y_{1},\omega ^{T}x_{2}-y_{2},...,\omega ^{T}x_{N}-y_{N})\begin{bmatrix} \omega ^{T}x_{1}-y_{1}\\ \omega ^{T}x_{2}-y_{2}\\ ...\\ \omega ^{T}x_{N}-y_{N} \end{bmatrix} \\ \\=(\omega ^{T}X^{T}-Y^{T})(X\omega -Y) \\ \\ =\omega ^{T}X^{T}X\omega -\omega ^{T}X^{T}Y-Y^{T}X\omega +Y^{T}Y \\ \\=\omega ^{T}X^{T}X\omega -2\omega ^{T}X^{T}Y+Y^{T}Y

{\color{Red} \hat{\omega }=argminL(\omega )}

\frac{\partial L(\omega )}{\partial \omega }=2X^{T}X\omega -2X^{T}Y=0

X^{T}X\omega =X^{T}Y \\

\hat{\omega }=(X^{T}X)^{-1}X^{T}Y

线性回归中的MLE

这里使用频率派的极大似然估计MLE对线性回归中的参数\omega进行求解(并且站在概率角度能更好分析与LSE的关系)。

数据与开篇一致,但设Y=f(X)+\varepsilon=\omega ^{T}X+\varepsilon,,其中\varepsilon为拟合过程中存在的噪声,设其服从零均值高斯分布,即\varepsilon \sim N(0,\sigma ^{2})。此时Y|X,\omega \sim N(\omega ^{T}X,\sigma ^{2}),(\omega ^{T}x是常数,常数的均值是自身,方差为0。)P(Y|X,\omega )=\frac{1}{\sqrt{2\pi }\sigma }exp[1\frac{(Y-\omega ^{T}X)^{2}}{2\sigma ^{2}}]此时,参数估计过程如下:

{\color{Red} \hat{\omega }}=argmaxP(Y|X,\omega )\\ \\ =argmaxLogP(Y|X,\omega )\\ =argmax\sum_{i=1}^{N}LogP(y_{i}|x_{i},\omega )\\ =argmax\sum_{i=1}^{N}Log[\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(y_{i}-\omega ^{T}x_{i})^{2}}{2\sigma ^{2}})]\\ =argmax\sum_{i=1}^{N}Log\frac{1}{\sqrt{2\pi }\sigma }-(-\frac{(y_{i}-\omega ^{T}x_{i})^{2}}{2\sigma ^{2}})\\ =argmin\sum_{i=1}^{N}\frac{(y_{i}-\omega ^{T}x_{i})^{2}}{2\sigma ^{2}}\\ {\color{Red} =argmin\sum_{i=1}^{N}(y_{i}-\omega ^{T}x_{i})^{2}}

推到这就够了,眼熟不家人们!这不就是LSE一开始的损失函数嘛,所以开始最小二乘估计的时候为什么没有加噪声,这么一分析下来可不就是f(x)=\omega ^{T}x已经包含了白噪声的拟合嘛,所以可以这么理解:LSE\Leftrightarrow MLE

2 岭回归LSE and MAP

岭回归之前先介绍一下过拟合现象。当样本数量较少,特征维数较多时,就容易出现过拟合现象。看到一个有意思的说法来形容过拟合:

欠拟合:光看书不做题觉得自己会了,上了考场啥都不会。
过拟合: 做课后题全都能做对,上了考场还是啥都不会。
差不多的拟合: 做了题,背了老师给画了重点,考试60分过了。
优秀的拟合: 课后题全能作对,考试100分。

解决过拟合一般有三种方式——1)增加样本数量。2)进行特征选择\降维。3)正则化。

这里着重介绍正则化方法。

正则化框架——argmin[L(\omega )+\lambda P(\omega )],其中P(\omega )是约束项,也叫做正则项,\lambda为其系数。

其中正则化包括   1)L1正则化(一范数)——P(\omega )=\left \| \omega \right \|_{1}

                            2)L2正则化(二范数)——P(\omega )=\left \| \omega \right \|_{2}^{2}=\omega ^{T}\omega

使用L1正则化约束进行线性回归时,也叫做Lasso回归。使用L2正则化约束进行线性回归时,也叫做岭回归。

L2正则化LSE

岭回归时,目标函数如下:

{\color{Red} J(\omega )=\sum_{i=1}^{N}\left \| \omega ^{T}x_{i}-y_{i} \right \|_{2}^{2}+\lambda \omega ^{T}\omega}\\ \\=(\omega ^{T}X^{T}-Y^{T})(X\omega -Y) +\lambda \omega ^{T}\omega\\ \\ =\omega ^{T}X^{T}X\omega -\omega ^{T}X^{T}Y-Y^{T}X\omega +Y^{T}Y +\lambda \omega ^{T}\omega\\ \\=\omega ^{T}X^{T}X\omega -2\omega ^{T}X^{T}Y+Y^{T}Y+\lambda \omega ^{T}\omega\\ \\ =\omega ^{T}(X^{T}X+\lambda I )\omega -2\omega ^{T}X^{T}Y+Y^{T}Y

{\color{Red} \hat{\omega }=argminJ(\omega )}

\frac{\partial J(\omega )}{\partial \omega }=2(X^{T}X+\lambda I)\omega -2X^{T}Y=0

\hat{\omega }=(X^{T}X+\lambda I)^{-1}X^{T}Y

线性回归中的MAP

从贝叶斯角度进行分析,假设\omega不是一个固定的值,而是服从零均值高斯分布(方便计算),\omega \sim N(0,\sigma_{0} ^{2})。由贝叶斯公式可得P(\omega |Y)=\frac{P(Y|\omega )P(\omega )}{P(Y)},分母P(Y)与\omega

无关,似然函数Y|X,\omega \sim N(\omega ^{T}X,\sigma ^{2})(参照MLE那里)。利用分子部分进行MAP参数估计:

{\color{Red} \hat{\omega }}=argmax P(Y|\omega )P(\omega )\\ \\=argmax Log P(Y|\omega )P(\omega )\\ \\=argmaxLog[\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(Y-\omega ^{T}X)^{2}}{2\sigma ^{2}})\cdot \frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{\left \| \omega \right \|_{2}^{2}}{2\sigma _{0}^{2}})]\\ \\=argmaxLog\frac{1}{\sqrt{2\pi }\sigma}\cdot \frac{1}{\sqrt{2\pi }\sigma_{0}}-[\frac{(Y-\omega ^{T}X)^{2}}{2\sigma ^{2}}+\frac{\left \| \omega \right \|_{2}^{2}}{2\sigma _{0}^{2}}]\\ \\{\color{Red} =argmin[(Y-\omega ^{T}X)^{2}+\frac{\sigma ^{2}}{\sigma _{0}^{2}}\left \| \omega \right \|_{2}^{2}]}

\frac{\sigma ^{2}}{\sigma _{0}^{2}}看作是系数\lambda,此时惊喜又来了!这不就是岭回归时的LSE嘛!我愿称数学是永远的神,兜兜转转,蓦然回首还是那人那模样,条条大路通罗马呀~ So,我们又可以得出岭回归LSE\Leftrightarrow MAP!

(碎碎念~ 敲公式真的太苦了。。。不过又是进步的一天~ 明天见!)

你可能感兴趣的:(机器学习,学习笔记,机器学习,线性回归,人工智能)