交叉熵推导

定义:

  • 信息量公式:
    (一个事件发生时,所包含的信息量,发生的概率越低,包含的信息量就越高,比如明天的太阳打东边升起,就是一句几乎不包含信息的话)

    其中为随机变量的某个特定值,是随机变量的概率质量函数
  • 熵公式:
    (随机变量的信息量的期望值)
    离散:

    连续:
    暂时不讨论
  • 相对熵:
    (KL散度,讨论的是一个概率如果用另一个概率来描述时,它所需要的额外信息量,被称为信息增量)
    现在存在两个概率与,他们都是随机变量的分布函数,现在它们的信息熵分别为:

推导可得交叉熵

  • 交叉熵:
    \begin {aligned} D_{KL}(p||q)&=\sum_{i=1}^m p(x_i ) ln(\frac {p(x_i)} {q(x_i)}) \\ & =\sum_{i=1}^m p(x_i) [ln(p(x_i)) - ln(q(x_i))] \\ & =\sum_{i=1}^m p(x_i)ln(p(x_i)) - \sum_{i=1}^m p(x_i) ln(q(x_i)) \\ & = -H(X) + [-( \sum_{i=1}^m p(x_i) ln(q(x_i)))] \end {aligned}
    其中,就是交叉熵。

参考:
一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉-史丹利复合田
期望值-维基百科
相对熵-维基百科

你可能感兴趣的:(交叉熵推导)