交叉熵函数为在处理分类问题中常用的一种损失函数,其具体公式为:
交叉熵是信息论中的一个重要概念,主要用于度量两个概率分布间的差异性。首先我们来了解几个概念。
信息论奠基人香农(Shannon)认为“信息是用来消除随机不确定性的东西”。也就是说衡量信息量大小就看这个信息消除不确定性的程度。
“太阳从东方升起了”这条信息没有减少不确定性。因为太阳肯定从东面升起。这是句废话,信息量为0。
“六月份下雪了”,这条信息就比较有价值,根据历史统计信息来看,六月份鲜有下雪记录,可知该语句信息量较大。
从上面两个例子可以看出:信息量的大小和事件发生的概率成反比。
由此引出信息量的表示:
其中P(x)表示为, 时间x的发生概率,这里可能会有质疑,我们知道信息量的大小和事件发生的概率成反比,函数形式为减函数,为什么要表现为对数形式呢?
这里我们需要了解信息量得三个性质:
1.事件发生的概率越低,信息量越大;
2.事件发生的概率越高,信息量越低;
3.多个事件同时发生的概率是多个事件概率相乘,总信息量是多个事件信息量相加。
根据性质3,可以知道使用对数形式可以满足性质需求,因此为表现该形式。
信息量度量的是一个具体事件发生所带来的信息,而信息熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。
因此我们可以得到其表现公式为:
其中P(x)表示为, 时间x的发生概率
总而言之,信息熵是用来衡量事物不确定性的。信息熵越大,事物越具不确定性,事物越复杂。
相对熵(relative entropy),又被称为Kullback-Leibler散度(KL散度)或信息散度(information divergence),是两个概率分布(probability distribution)间差异的非对称性度量 。在信息理论中,相对熵等价于两个概率分布的信息(Shannon entropy)的差值 。
可以理解为对于同一个随机变量x,有两个概率分布,判断这两个概率分布得差异。假设两个概率分布对应为p(x),q(x), 如何表示这两个分布得差异,我们可以使用信息熵判断,于是相对熵产生。
p(x)分布的信息熵为:
q(x)分布的信息熵为:
相对熵为:
p(x)为样本真实分布,q(x)为预测分布
于是得到相对熵(KL散度)公式为:
KL散度越小,表示P(x) 与Q(x)的分布更加接近,可以通过反复训练Q (x)来使Q (x) 的分布逼近P(x)。
交叉熵的函数表示为:
我们观察可以看出,这里与相对熵(KL散度)较为相似,个人认为交叉熵为相对熵(KL散度)的变体,由于我们进行模型训练,有监督训练,样本标签已经确定,相当于真实的概率的分布P(x)已经得知,因此这边的为固定值,相当于常量。
在我们模型训练中:
相对熵(KL散度)变为:
对于其做为损失函数,常量可以忽略,因此得到了交叉熵的表现形式。
对于在二分类损失函数中应用,交叉熵损失函数为以下形式。
在具体在Python中的实现如下:
# tensorflow version
loss = tf.reduce_mean(-tf.reduce_sum(y_*tf.log(y), reduction_indices=[1]))
# numpy version
loss = np.mean(-np.sum(y_*np.log(y), axis=1))
# pytorch version
entroy=nn.CrossEntropyLoss()
output = entroy(input, target)
交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度,在机器学习中就表示为真实概率分布与预测概率分布之间的差异。
交叉熵的值越小,模型预测效果就越好。
交叉熵经常搭配softmax使用,将输出的结果进行处理,使其多个分类的预测值和为1,再通过交叉熵来计算损失。
[1] https://blog.csdn.net/b1055077005/article/details/100152102
[2] https://zhuanlan.zhihu.com/p/74075915
[3] https://zhuanlan.zhihu.com/p/70804197
[4] https://blog.csdn.net/francislucien2017/article/details/86763319
[5]https://blog.csdn.net/dog250/article/details/79081043