最小二乘法中损失函数采用均方误差的原因

提到均方误差,可能最开始想到的就是求解回归问题的一种损失函数。而最早接触均方误差的时候可能在学习最小二乘法的时候。最小二乘法它通过最小化误差的平方和来寻找数据的最佳函数匹配。那么其背后的原理是什么呢?

首先从可行性的角度想到的是均方误差函数是光滑函数,能够采用梯度下降算法进行优化。但这似乎不是一个好的解释。而从概率统计的角度来理解,其背后的最终支撑是最小二乘估计假设误差是服从高斯分布的,为什么这样说呢。

以线性回归为例,一般来讲假设预测结果与真实值有误差,那么预测结果和真实的应该满足

一般来说,误差满足均值为0的高斯分布,即正态分布,于是在给定条件下样本点 x 来预测回归值 y 的条件概率密度就是:

这样就估计了一个样本的结果概率,我们期待的是模型能够在全部样本上预测最准,即概率积最大。这个概率积就成为最大似然估计。下面就按照最大似然估计的方式来求解参数,首先写出似然函数如下:

 对上面式子左右取对数后可以得到:

最小二乘法中损失函数采用均方误差的原因_第1张图片

求对数似然函数的最大值问题,于是问题就可以写成如下形式:

最小二乘法中损失函数采用均方误差的原因_第2张图片

推导到这里之后问题就变得比较明了,上面的式子不就正是均方误差损失函数吗。这也解释了为什么均方误差会用作回归问题的损失函数.

你可能感兴趣的:(机器学习算法)