交叉熵损失函数学习笔记

文章目录

  • 交叉熵损失函数
      • 1 信息量
      • 2 信息熵
      • 3 相对熵(KL散度)
      • 4 交叉熵
        • 4.1 二分类
        • 4.2 多分类
      • 5 小结
    • 6. 参考资料

交叉熵损失函数

交叉熵是信息论中的一个重要概念,主要用户度量两个概率分布间的差异性,要理解交叉熵,需要了解下面几个概念。

1 信息量

信息论奠基人香农认为信息是用来消除随机不确定性的东西,也就是说衡量信息量的大小就看信息消除不确定性的程度。

“太阳从东边升起”,这条信息没有减少不确定性,因为太阳一直都是从东边升起,所以这条信息的信息量为0。

“2020年中国队成功进入世界杯”,因为中国进入世界杯的不确定性很大,而这句话消除了2020年中国进入世界杯的不确定性,所以这条信息的信息量很大。

综上:信息量的大小与信息发生的概率成反比,即概率越大,信息量越小;概率越小,信息量越大。

假设某一事件发生的概率为 P(x),其信息量为:

I ( x ) = − l o g ( P ( x ) ) I(x)=-log(P(x)) I(x)=log(P(x))

其中 I ( x ) I(x) I(x) 为信息量, l o g log log 为以 e 为底的自然对数。

2 信息熵

信息熵也被称为熵,用来表示 所有信息量的期望

期望是实验中每次可能结果的概率乘以其结果总和

所有信息量的熵可表示为:

H ( x ) = − ∑ i = 1 n P ( x i ) I ( x i ) = − ∑ i = 1 n P ( x i ) l o g ( P ( x i ) ) (   X = x 1 , x 2 , … … , x n ) H(x)=-\sum_{i=1}^{n} P(x_i)I(x_i)=-\sum_{i=1}^n P(x_i)log(P(x_i)) \tag{ $X=x_1, x_2, ……,x_n$} H(x)=i=1nP(xi)I(xi)=i=1nP(xi)log(P(xi))( X=x1,x2,,xn)

这是的 X 表示一个离散随机变量。

交叉熵损失函数学习笔记_第1张图片

3 相对熵(KL散度)

交叉熵损失函数学习笔记_第2张图片

4 交叉熵

交叉熵损失函数学习笔记_第3张图片

4.1 二分类

在二分类中,交叉熵损失函数表达式为:

交叉熵损失函数学习笔记_第4张图片

4.2 多分类

交叉熵损失函数学习笔记_第5张图片

5 小结

交叉熵背后还有相对熵(KL散度),它可以衡量两个分布 P(x) 和 Q(x) 之间的差异,这与机器学习中使预测的分布和样本分布尽量相似的目标不谋而合。P(x) 和 Q(x) 之间的相对熵 = P(x) 和 Q(x) 的交叉熵 - P(x) 的信息熵,而在机器学习训练过程中,P(x) 的分布往往是已知的,所以 P(x) 的信息熵是一个固定值,因此,经常直接使用交叉熵作为损失函数。

6. 参考资料

  • 损失函数 - 交叉熵损失函数 - 飞鱼Talk的文章 - 知乎
  • 交叉熵损失函数原理详解
  • 一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉

你可能感兴趣的:(机器学习,交叉熵,损失函数)