线性回归的损失函数为什么用最小二乘不用似然函数?

简单的说,是因为使用平方形式的时候,使用的是最小二乘法的思想,这里的二乘指的是用平方来度量观测点与估计点的距离(远近),最小指的是参数值要保证各个观测点与估计点的距离的平方和达到最小。

最小二乘法以估计值与观测值的平方和作为损失函数,在误差服从正态分布的前提下,与极大似然估计的思想在本质上是相同。我们通常认为ε服从正态分布,通过对极大似然公式的推到,结果真是最小二乘的式子。

在实际任务中,我们将从数据集{(Xi,Yi)},i = 1,2.......,n,中学习出一个模型f(x)。数据集可以认为是从理想的模型F(x)中采样,并添加高斯噪声而形成。

      从这个角度看,数据集中的每一个点(Xi,Yi)均服从于均值为f(Xi),方差为某一固定值的高斯分布。所以数据(Xi, Yi)概率如下:

           

      而判断一个模型是否足够接近理想模型,可以比较数据集在当前模型下出现的概率,也就是大家熟悉的极大似然估计了。所以,我们的目标就是极大化数据集的对数似然函数。此处就不继续展开,往下的推导就是一般的极大似然法。通过化简后,我们会发现,极大化数据集的对数似然函数,其实等价于最小化在数据集上,标签Yi与模型预测值f(Xi)差的平方和。

从平方和误差函数的数学背景可以看到,选用平方和误差函数,实际上是基于极大似然法。而极大似然法,天生自带过拟合的属性。所以这也是为什么在训练阶段,追求模型在训练集上的准确率时,模型容易过拟合的本质原因。而控制模型复杂度、调节参数等等操作,都是在过拟合与准确率之间做一个权衡。

你可能感兴趣的:(线性回归的损失函数为什么用最小二乘不用似然函数?)