如何理解对数似然损失函数

介绍

通过最大似然估计值来衡量损失。
最大似然估计的原理是:找到一组估计值,使得未知参数取该组估计值时,观察值以最大概率出现。

设总体 X X X 为离散型随机变量,其分布律为 P ( X = x k ) = p ( x k , θ ) , k = 1 , 2 … P(X=x_k)=p(x_k,\theta), k=1,2\dots P(X=xk)=p(xk,θ),k=1,2,其中 θ \theta θ 是待估参数,则 X 1 = x − 1 , X 2 = x 2 , … , X N = x n X_1=x-1,X_2=x_2,\dots,X_N=x_n X1=x1X2=x2,,XN=xn 的概率为:
P ( X 1 = x − 1 , X 2 = x 2 , … , X N = x n ) = ∏ k = 1 n P ( X k = x k ) = ∏ k = 1 n p ( x k , θ ) P(X_1=x-1,X_2=x_2,\dots,X_N=x_n)=\prod\limits_{k=1}\limits^{n}P(X_k=x_k)=\prod\limits_{k=1}\limits^{n}p(x_k,\theta) P(X1=x1X2=x2,,XN=xn)=k=1nP(Xk=xk)=k=1np(xk,θ).
上式是 θ \theta θ 的函数,称为 似然函数,记为 L ( θ ) L(\theta) L(θ),即
L ( θ ) = L ( θ ; x 1 , x 2 , ⋯   , x n ) = ∏ k = 1 n p ( x k , θ ) L(\theta)=L(\theta;x_1,x_2,\cdots,x_n)=\prod\limits_{k=1}\limits^{n}p(x_k,\theta) L(θ)=L(θ;x1,x2,,xn)=k=1np(xk,θ)

上式完全是乘积的形式,大多数情况下会取个对数,方便求解或者不会溢出。

从另外一个角度来理解似然函数:当似然函数取最大值时,意味着这组参数一定程度上非常贴合所给数据分布,也就是说,在这组参数下,模型预测的值和真实值相对来说比较接近,也就是损失函数较小。

为了能够直接利用上述似然函数来表达损失函数的定义【损失值越小越好】,对取了对数的似然函数再取个负号。

参考资料

[1] 对数损失函数是如何度量损失的?-知乎
[2]《概率统计与数据处理》-曹菊生;魏国强

你可能感兴趣的:(机器学习)