交叉熵理解

可以从最大似然估计的角度理解交叉熵:
例如一个图片,该图片的类别服从一个分布P(x),在N次独立同分布实验中(例如让N个人去判断这个图片的类别),该图片类别的观察值为x的次数为N(x),那么似然值为:

取负对数并用样本数N归一化得到交叉熵:

其中为频率。

似然值最大对应交叉熵最小,求交叉熵最小可用拉格朗日乘子法:

参考:
为什么交叉熵(cross-entropy)可以用于计算代价? - 灵剑的回答 - 知乎
如何理解拉格朗日乘子法? - 马同学的回答 - 知乎

你可能感兴趣的:(交叉熵理解)