【小白学优化】最小二乘法与岭回归&Lasso回归

文章目录:
[TOC]

1 抛砖引玉

如果你刚某运动完虚的很,这时候你的女朋友说:你这个有多长?然后你拿过来尺子想量一量。因为很虚,所以眼睛有点花,测量了五次有五个结果:
18.1cm,17.9cm,18.2cm,17.8cm,18.0cm

你这时候你要怎么回答女朋友?告诉她五个数值?根据经验,你决定计算一下平均数来回复:
$$\bar{x} = \frac{18.1+17.9+182.+17.8+18.0}{5}=18$$

所以你说,这个东西18cm,女朋友心满意足,把这个士力架吃了补充体力。

【为什么用算数平均?】

你事后一根烟的时候,思考,到底是谁规定的,算术平均值就是最好的答案?我为什么不能随机选择一个数字来作为真实长度呢?

我们假设真实长度为$x$,然后五次测量结果是$x_i,i\in{1,2,3,4,5}$

那么每一次测量的误差是
$$\epsilon_i = |x-x_i|$$

阿德里安-马里·勒让德(1752-1833)提出让总的误差的平方最小的就是真值。 因此这里计算每一次测量的误差采用了平方损失,这也是二乘的来由
$$\epsilon_i = (x-x_i)^2$$

现在我们把五次测量的误差都加起来,得到了:
$$\sum^5_{i=1}\epsilon_i = \sum^5_{i=1}(x-x_i)^2$$

现在我们可以知道,x的值应该就是让上面的总误差最小的那个x,对x求导:
$$2(x-x_1)+2(x-x_2)+2(x-x_3)+2(x-x_4)+2(x-x_5)=0$$

可以化简得到:
$$x = \frac{x_1+x_2+x_3+x_4+x_5}{5}$$

因此可以知道:算数平方等价于最小二乘法求得的最优解。而最小二乘法其实就是用平方损失作为损失函数的优化方法。

2 多元回归

假设有多个随机变量,那么也可以用最小二乘法。

图中的拟合曲线应该是:
$$f(x)=ax+b$$

采用同样的方法,计算出平方损失之后,对损失求参数a和b的偏导数,然后让其等于零,这样相当于得到了一个二元一次方程组,然后求解a和b即可。

当然,假设你看了数据之后觉得这是一个二次曲线:
$$f(x)=ax^2+bx+c$$

那么同样的方法可以得到一个三元一次方程组来求解。

【总结】
线性回归可以用最小二乘法来拟合各种形状,但是前提是,你要确定你的数据大概是一个怎么样的形式。是一次的还是二次方的还是怎么样的,这就需要一些经验了。

是过拟合还是欠拟合,就看自己的选择了,同样的数据,选择了不同的f(x),可以得到不同的拟合曲线。

3 正态分布

勒让德的猜想,也就是最小二乘法,这个证明并不能令人信服。数学王子高斯提出了最令人信服的证明。

依然是士力架的长度问题,我们还是用$\epsilon$来表示误差:
$$\epsilon_i=x-x_i$$

高斯认为这些误差会形成一个概率分布,但是我们目前还不知道这个概率分布是什么。假设概率分布式$$p(\epsilon)$$

然后我们来对产生了这五次数据的事实做一个似然函数:
$$L(x)=p(\epsilon_1)p(\epsilon_2)p(\epsilon_3)p(\epsilon_4)p(\epsilon_5)$$

因为这样的事情发生了,所以我们认为这样的事情发生概率是最大的,也就是说,x应该是$L(x)$最大的时候的那个x。
如果最小二乘法是对的,那么$$x=\bar x$$的时候应该是L(x)最大的时候,所以带入之后,解得:
$$p(\epsilon)=\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{\epsilon^2}{2\sigma^2}}$$

因此高斯证明了,x是算数平均的时候,最小二乘法成立的时候,测量误差是服从正态分布的。

而这时最小二乘法之所以重要的原因,因为从分布上来说,如果想让误差服从正态分布,那么用最小二乘法来求解答案。

至于为什么正态分布如此重要,就需要学习中心极限定理。在这里不加赘述。

4 岭回归与Lasso回归

求解线性回归的参数,有两种方法:

  • 梯度下降
  • 用求导的正规方法

岭回归与Lasso回归的出现是为了解决线性回归出现的过拟合以及在通过正规方程方法求解θ的过程中出现的x转置乘以x不可逆这两类问题的,这两种回归均通过在损失函数中引入正则化项来达到目的,具体三者的损失函数对比见下图:

  • 从损失函数中可以看到,岭回归其实引入了L2范数惩罚项,而Lasso引入了L1范数惩罚项。
  • λ称为正则化参数,如果λ选取过大,会把所有参数θ强制小化,造成欠拟合;如果λ选取过小,会导致对过拟合问题解决不当,因此λ的选取是一个技术活。
  • Lasso使用了L1正则,所以会倾向于让参数变成0,因此相比岭回归,Lasso的计算量会小很多。

你可能感兴趣的:(机器学习算法深度学习数据挖掘)