欢迎访问我的个人主页
tf.softmax_cross_entropy_with_logits()的计算过程一共分为两步:1.将logits转换成概率;2.计算交叉熵损失
比如某个logits = [2, 7, 5],使用softmax将logits转换成概率,就是按照公式: e x ∑ e x \frac {e^x}{\sum e^x} ∑exex计算logits中每个元素的值:[ e 2 e 2 + e 7 + e 5 \frac {e^2}{e^2 + e^7 +e5} e2+e7+e5e2 , e 7 e 2 + e 7 + e 5 \frac {e^7}{e^2 + e^7 +e5} e2+e7+e5e7 , e 5 e 2 + e 7 + e 5 \frac {e^5}{e^2 + e^7 +e5} e2+e7+e5e5],计算结果为[0.00589975 0.8756006 0.11849965],这三个元素每个都不小于0并且和为1,所以构成了概率分布
假设对应logits的标签labels是[0,1,0]
根据交叉熵公式 − ∑ y ′ × l o g ( y ) -\sum y'\times log(y) −∑y′×log(y)计算概率化之后的logits和标签之间的交叉熵损失,其中 y ′ = [ 0 , 1 , 0 ] , y = [ 0.005899750.87560060.11849965 ] y'=[0,1,0],y=[0.00589975 0.8756006 0.11849965] y′=[0,1,0],y=[0.005899750.87560060.11849965] ,也就是 − 0 × l o g ( 0.00589975 ) − 1 × l o g ( 0.8756006 ) − 0 × l o g ( 0.11849965 ) = 0.6355716 -0\times log(0.00589975)-1\times log(0.8756006)-0\times log(0.11849965) = 0.6355716 −0×log(0.00589975)−1×log(0.8756006)−0×log(0.11849965)=0.6355716
上面举的例子只对应一个样本的logits=[2, 7, 5],一般训练时batch size不会为设为1, 所以要使用tf.reduce_mean()来对tf.softmax_cross_entropy_with_logits()的结果取平均,得到关于样本的平均交叉熵损失.比如batch size = 2
logits=[[2,7,5],[6,3,4]] labels=[[0,1,0],[1,0,0]]
使用tf.softmax_cross_entropy_with_logits()计算后得到[2,7,5],[6,3,4]这两个样本的交叉熵损失,再使用tf.reduce_mean()取平均,具体见下面的代码演示
# coding:utf-8
import tensorflow as tf
###############################
# 一个样本
###############################
logits = tf.constant([2,7,5],dtype=tf.float32)
labels = [0,1,0]
#对logits使用softmax,[0.00589975 0.8756006 0.11849965]
res1 = tf.nn.softmax(logits)
# 交叉熵损失中的各个对数部分,[-5.1328454 -0.13284525 -2.1328452 ]
res2 = tf.log(res1)
# 交叉熵损失,0.13284527
res3 = tf.nn.softmax_cross_entropy_with_logits(logits=logits,labels=labels)
with tf.Session() as sess:
res1,res2,res3 = sess.run([res1,res2,res3])
print(res1)
print(res2)
print(res3)
print('====================================================')
###############################
# 多个样本
###############################
logits = tf.constant([[2,7,5],[6,3,4]],dtype=tf.float32)
labels = [[0,1,0],[1,0,0]]
#对logits使用softmax,[[0.00589975 0.8756006 0.11849965] [0.8437947 0.04201007 0.11419519]]
res1 = tf.nn.softmax(logits)
# 交叉熵损失中的各个对数部分,[[-5.1328454 -0.13284525 -2.1328452 ] [-0.16984606 -3.169846 -2.169846 ]]
res2 = tf.log(res1)
# 交叉熵损失,[0.13284527 0.16984604]
res3 = tf.nn.softmax_cross_entropy_with_logits(logits=logits,labels=labels)
# 求出交叉熵损失后再对各个样本的交叉熵损失取平均,0.15134566
res4 = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=logits,labels=labels))
with tf.Session() as sess:
res1,res2,res3,res4 = sess.run([res1,res2,res3,res4])
print(res1)
print(res2)
print(res3)
print(res4)