交叉熵损失函数,softmax与数值稳定性

文章目录

    • 1.交叉熵损失函数
      • 1.1 交叉熵损失函数的数学原理
      • 1.2 交叉熵损失函数的直观理解
    • 2. softmax与数值稳定性
      • 2.1 e x e^x ex数值溢出问题
      • 2.2 在TensorFlow 中,自定义交叉熵损失函数 - 不推荐
      • 2.3 TensorFlow中两种方式计算Cross Entropy
        • 2.3.1 `tf.nn.softmax_cross_entropy_with_logits` 用法
      • 2.4 `tf.log(tf.nn.softmax(logits))` 和 `tf.nn.log_softmax(logits)`等效
    • Reference

1.交叉熵损失函数

说起交叉熵损失函数「Cross Entropy Loss」,脑海中立马浮现出它的公式:

我们已经对这个交叉熵函数非常熟悉,大多数情况下都是直接拿来使用就好。但是它是怎么来的?为什么它能表征真实样本标签和预测概率之间的差值?上面的交叉熵函数是否有其它变种?也许很多朋友还不是很清楚!没关系,接下来我将尽可能以最通俗的语言回答上面这几个问题。

1.1 交叉熵损失函数的数学原理

我们知道,在二分类问题模型:例如逻辑回归「Logistic Regression」、神经网络「Neural Network」等,真实样本的标签为 [0,1],分别表示负类和正类。模型的最后通常会经过一个 Sigmoid 函数,输出一个概率值,这个概率值反映了预测为正类的可能性:概率越大,可能性越大。

交叉熵损失函数,softmax与数值稳定性_第1张图片

其中 s 是模型上一层的输出,Sigmoid 函数有这样的特点:s = 0 时,g(s) = 0.5;s >> 0 时, g ≈ 1,s << 0 时,g ≈ 0。显然,g(s) 将前一级的线性输出映射到 [0,1] 之间的数值概率上。这里的 g(s) 就是交叉熵公式中的模型预测输出 。

我们说了,预测输出即 Sigmoid 函数的输出表征了当前样本标签为 1 的概率:

在这里插入图片描述
很明显,当前样本标签为 0 的概率就可以表达成:
在这里插入图片描述
重点来了,如果我们从极大似然性的角度出发,把上面两种情况整合到一起:
在这里插入图片描述
也即,当真实样本标签 y = 0 时,上面式子第一项就为 1,概率等式转化为:

在这里插入图片描述
当真实样本标签 y = 1 时,上面式子第二项就为 1,概率等式转化为:
在这里插入图片描述
两种情况下概率表达式跟之前的完全一致,只不过我们把两种情况整合在一起了。

重点看一下整合之后的概率表达式,我们希望的是概率 P(y|x) 越大越好。首先,我们对 P(y|x) 引入 log 函数,因为 log 运算并不会影响函数本身的单调性。则有:
在这里插入图片描述
我们希望 log P(y|x) 越大越好,反过来,只要 log P(y|x) 的负值 -log P(y|x) 越小就行了。那我们就可以引入损失函数,且令 Loss = -log P(y|x)即可。则得到损失函数为:
在这里插入图片描述
非常简单,我们已经推导出了单个样本的损失函数,是如果是计算 N 个样本的总的损失函数,只要将 N 个 Loss 叠加起来就可以了:
在这里插入图片描述
这样,我们已经完整地实现了交叉熵损失函数的推导过程。

1.2 交叉熵损失函数的直观理解

综上,我们已经知道了交叉熵损失函数的推导过程。但是能不能从更直观的角度去理解这个表达式呢?而不是仅仅记住这个公式。好问题!接下来,从图形的角度,分析交叉熵函数,加深理解。

首先,还是写出单个样本的交叉熵损失函数:
在这里插入图片描述
我们知道,当 y = 1 时:
在这里插入图片描述
这时候,L 与预测输出的关系如下图所示:
交叉熵损失函数,softmax与数值稳定性_第2张图片
看了 L 的图形,简单明了!横坐标是预测输出,纵坐标是交叉熵损失函数 L。显然,预测输出越接近真实样本标签 1,损失函数 L 越小;预测输出越接近 0,L 越大。因此,函数的变化趋势完全符合实际需要的情况。

当 y = 0 时:
在这里插入图片描述
这时候,L 与预测输出的关系如下图所示:

交叉熵损失函数,softmax与数值稳定性_第3张图片
同样,预测输出越接近真实样本标签 0,损失函数 L 越小;预测函数越接近 1,L 越大。函数的变化趋势也完全符合实际需要的情况。

从上面两种图,可以帮助我们对交叉熵损失函数有更直观的理解。无论真实样本标签 y 是 0 还是 1,L 都表征了预测输出与 y 的差距。

另外,重点提一点的是,从图形中我们可以发现:预测输出与 y 差得越多,L 的值越大,也就是说对当前模型的 “ 惩罚 ” 越大,而且是非线性增大,是一种类似指数增长的级别。这是由 log 函数本身的特性所决定的。这样的好处是模型会倾向于让预测输出更接近真实样本标签 y。

2. softmax与数值稳定性

2.1 e x e^x ex数值溢出问题

指数函数在计算时,容易发生溢出。这里列举了一个简单的例子

交叉熵损失函数,softmax与数值稳定性_第4张图片
为了解决这个问题,分子分母同时乘一个常数,等效于在次方位置加上一个常数,加上常数之后,等式与原来还是相等的,所以我们可以考虑怎么选取常数。我们的想法是让所有的输入在0附近,这样的e的 a i a_i ai次方的值不会太大,所以可以取 a 1 , . . . , a C a_1, ..., a_C a1,...,aC的最大值,再取负。

交叉熵损失函数,softmax与数值稳定性_第5张图片

2.2 在TensorFlow 中,自定义交叉熵损失函数 - 不推荐

我们在做分类模型时,一般会用到交叉熵损失函数。如果自己实现的的话,会有在前文说的数值不稳定的问题,推荐使用tf.nn.softmax_cross_entropy_with_logits这个交叉熵损失函数。

交叉熵损失函数,softmax与数值稳定性_第6张图片

2.3 TensorFlow中两种方式计算Cross Entropy

  • tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y, labels=tf.argmax(y_, 1))
  • tf.nn.softmax_cross_entropy_with_logits(logits=y, labels=y_)

可以看出,softmax_cross_entropy_with_logits第二个参数传入的参数是原数组,
sparse_softmax_cross_entropy_with_logits传入的是原数组中为1的索引位置。

2.3.1 tf.nn.softmax_cross_entropy_with_logits 用法

  • 用法
tf.nn.softmax_cross_entropy_with_logits(logits, labels, name=None)
  • 第一个参数logits:就是神经网络最后一层的输出,如果有batch的话,它的大小就是[batchsize,num_classes],单样本的话,大小就是num_classes

  • 第二个参数labels:实际的标签,大小同上

  • 注意!!!这个函数的返回值并不是一个数,而是一个向量,如果要求交叉熵,我们要再做一步tf.reduce_sum操作,就是对向量里面所有元素求和,最后才得到,如果求loss,则要做一步tf.reduce_mean操作,对向量求均值!

  • 代码如下:

import tensorflow as tf
 
#our NN's output
logits=tf.constant([[1.0,2.0,3.0],[1.0,2.0,3.0],[1.0,2.0,3.0]])
#step1:do softmax
y=tf.nn.softmax(logits)
#true label
y_=tf.constant([[0.0,0.0,1.0],[0.0,0.0,1.0],[0.0,0.0,1.0]])
#step2:do cross_entropy
cross_entropy = -tf.reduce_sum(y_*tf.log(y))
#do cross_entropy just one step
cross_entropy2=tf.reduce_sum(tf.nn.softmax_cross_entropy_with_logits(logits=logits, labels=y_))#dont forget tf.reduce_sum()!!

cross_entropy3 = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=logits, labels=tf.argmax(y_, 1))
cross_entropy4 = tf.nn.softmax_cross_entropy_with_logits(logits=logits, labels=y_)
 
with tf.Session() as sess:
    softmax=sess.run(y)
    c_e = sess.run(cross_entropy)
    c_e2 = sess.run(cross_entropy2)
    print("step1:softmax result=")
    print(softmax)
    print("step2:cross_entropy result=")
    print(c_e)
    print("Function(softmax_cross_entropy_with_logits) result=")
    print(c_e2)
    print('*'*66)
    print(sess.run(cross_entropy3))
    print(sess.run(cross_entropy4))

"""
step1:softmax result=
[[0.09003057 0.24472848 0.66524094]
 [0.09003057 0.24472848 0.66524094]
 [0.09003057 0.24472848 0.66524094]]
step2:cross_entropy result=
1.222818
Function(softmax_cross_entropy_with_logits) result=
1.2228179
******************************************************************
[0.40760595 0.40760595 0.40760595]
[0.40760595 0.40760595 0.40760595]
"""
  • 输出
step1:softmax result=
[[ 0.09003057  0.24472848  0.66524094]
 [ 0.09003057  0.24472848  0.66524094]
 [ 0.09003057  0.24472848  0.66524094]]
step2:cross_entropy result=
1.22282
Function(softmax_cross_entropy_with_logits) result=
1.2228

  • 最后大家可以试试e1/(e1+e2+e3)是不是0.09003057,发现确实一样!!

2.4 tf.log(tf.nn.softmax(logits))tf.nn.log_softmax(logits)等效

其中logits是matrix

logits=tf.constant([[1.0,2.0,3.0],[1.0,2.0,3.0],[1.0,2.0,3.0]])
#step1:do softmax
y=tf.nn.softmax(logits)
#step2:do cross_entropy
with tf.Session() as sess:
    res = sess.run(tf.log(y))
    res2 = sess.run(tf.nn.log_softmax(logits))

print(res)
print(res2)
"""
array([[-2.407606  , -1.4076059 , -0.407606  ],
       [-2.407606  , -1.4076059 , -0.407606  ],
       [-2.407606  , -1.4076059 , -0.40760598]], dtype=float32)

array([[-2.407606  , -1.4076059 , -0.40760595],
       [-2.407606  , -1.4076059 , -0.40760595],
       [-2.407606  , -1.4076059 , -0.40760595]], dtype=float32)
"""

Reference

https://juejin.cn/post/6844903622233292813
https://blog.csdn.net/mao_xiao_feng/article/details/53382790#

你可能感兴趣的:(TensorFlow,python,深度学习,神经网络)