线性回归损失函数为什么要用平方形式

我们在前面的《线性回归》中了解到,对于训练数据样本 (xi,yi) ,我们有如下的拟合直线:

yˆi=θ0+θ1xi

我们构建了一个损失函数:
C=i=1n(yiyˆi)2

表示每个训练数据点 (xi,yi) 到拟合直线 yˆi=θ0+θ1xi 的竖直距离的平方和,通过最小化这个损失函数来求得拟合直线的最佳参数 θ ,实际上就是求损失函数C在取得最小值情况下 θ 的值。那么损失函数为什么要用平方差形式呢,而不是绝对值形式,一次方,三次方,或四次方形式?

简单的说,是因为使用平方形式的时候,使用的是“最小二乘法”的思想,这里的“二乘”指的是用平方来度量观测点与估计点的距离(远近),“最小”指的是参数值要保证各个观测点与估计点的距离的平方和达到最小。

最小二乘法以估计值与观测值的平方和作为损失函数,在误差服从正态分布的前提下,与极大似然估计的思想在本质上是相同。对于极大似然估计,可以参考下前期文章《极大似然估计》。
我们设观测输出与预估数据之间的误差为:

εi=yiyˆi

我们通常认为 ε 服从正态分布,即:
f(εi;u,σ2)=1σ2πexp[(εiu)22σ2]

我们求的参数 ε 的极大似然估计 (u,σ2) ,即是说,在某个 (u,σ2) 下,使得服从正态分布的 ε 取得现有样本 εi 的概率最大。那么根据极大似然估计函数的定义,令:
L(u,σ2)=i=1n12πσexp((εiu)22σ2)

取对数似然函数:
logL(u,σ2)=n2logσ2n2log2πi=1n(εiu)22σ2

分别求 (u,σ2) 的偏导数,然后置0,最后求得参数 (u,σ2) 的极大似然估计为:
u=1ni=1nεi

σ2=1ni=1n(εiu)2

我们在线性回归中要求得最佳拟合直线 yˆi=θ0+θ1xi ,实质上是求预估值 yˆi 与观测值 yi 之间的误差 εi 最小(最好是没有误差)的情况下 θ 的值。而前面提到过, ε 是服从参数 (u,σ2) 的正态分布,那最好是均值 u 和方差 σ 趋近于0或越小越好。即:
u=1ni=1nεi=1ni=1n(yiyˆi) 趋近于0或越小越好
σ2=1ni=1n(εiu)2=1ni=1n(yiyˆiu)21ni=1n(yiyˆi)2 趋近于0或越小越好。
而这与最前面构建的平方形式损失函数本质上是等价的。

你可能感兴趣的:(机器学习,线性回归,损失函数,最小二乘)