极大似然估计与交叉熵

前言

关于极大似然估计和交叉熵我就不介绍了,有兴趣的可以看我其他的博客,我这里只讲他们的联系。

公式

现有一个真实的分布 P ( x ) P(x) P(x),现在为了减小模型的概率分布 Q ( x ; θ ) Q(x;\theta) Q(x;θ) 与真实分布P之间的差异,使用最大似然:
θ M L E = a r g max ⁡ ∏ i = 1 m Q ( x i ; θ ) = a r g max ⁡ ∑ i = 1 m log ⁡ Q ( x i ; θ ) ≈ a r g max ⁡ E x ∼ P ( x ) [ log ⁡ Q ( x ; θ ) ] = − a r g min ⁡ E x ∼ P ( x ) [ log ⁡ Q ( x ; θ ) ] \begin{aligned} \theta_{MLE} &= arg\max \prod_{i=1}^m Q(x^i; \theta) \\\\ &= arg \max \sum_{i=1}^m \log Q(x^i; \theta) \\\\ &\approx arg\max E_{x \sim P(x)}[\log Q(x;\theta)] \\\\ &= -arg \min E_{x \sim P(x)}[\log Q(x; \theta)] \end{aligned} θMLE=argmaxi=1mQ(xi;θ)=argmaxi=1mlogQ(xi;θ)argmaxExP(x)[logQ(x;θ)]=argminExP(x)[logQ(x;θ)]
可以看出,最小化交叉熵和最大似然函数结果是一样的。

你可能感兴趣的:(机器学习)