损失函数

最大似然函数的合理性

极大似然估计的思想是,被观测到的数据,能够以最大的概率代表总体的特征

image.png

image.png

MSE(Mean Square Error)均方误差

假设模型为


image.png

则MSE为


image.png

模型推导

背后的假设

实际上在一定的假设下,我们可以使用最大化似然得到均方差损失的形式。假设模型预测与真实值之间的误差服从标准高斯分布(μ=0,σ=1),则给定一个xi,模型输出真实值 yi 的概率为

image.png

上式推导:
推导:Y=Y_pre+η(误差/噪声)
E(Y)=E(Y_pre+η)=Y_pre+E(η)=Y_pre
Var(Y)=Var(Y_pre+η)=0+Var(η)=1
所以Y~N(Y_pre,1),即有上式的表达。

进一步我们假设数据集中 N 个样本点之间相互独立,则给定所有 x,输出所有真实值 y的概率,即似然概率,为所有p(yi|xi)的累乘


image.png

通常为了计算方便,我们通常最大化对数似然 Log-Likelihood


image.png

去掉无关项,然后转化为最小化负对数似然 Negative Log-Likelihood

image.png

MAE推导与MAE类似(把误差假设成拉普拉斯分布)

MSE和MAE背后的假设
    在一定的假设下,使用最大化似然得到均方差损失的形式。
    发现最大似然函数和损失函数在形式上具有同一性(大体上互为相反数),而最大似然函数表示值越大,当前的模型表示的越准。同样,损失函数值越小(公式上对应着最大似然你函数越大),表示当前模型越准。因此,当假设成立时,损失函数使用均方差函数是一个很好的选择。

参考 Picking Loss Functions - A comparison between MSE, Cross Entropy, and Hinge Loss – Rohan Varma – Software Engineer @ Facebook

你可能感兴趣的:(损失函数)