如果对于同一个随机变量X有两个单独的概率分布P ( x )和Q ( x ) 【在机器学习中,常常使用P ( x )来表示样本的真实分布,Q ( x )来表示模型所预测的分布】,则我们可以使用KL散度来衡量这两个概率分布之间的差异。KL散度越小,表示P ( x )与Q ( x )的分布更加接近,可以通过反复训练Q ( x )来使Q ( x )的分布逼近P ( x )。
在机器学习训练网络时,输入数据与标签常常已经确定,那么真实概率分布P ( x )也就确定下来了,所以信息熵在这里就是一个常量。由于KL散度的值表示真实概率分布P ( x ) 与预测概率分布Q ( x )之间的差异,值越小表示预测的结果越好,所以需要最小化KL散度,而交叉熵等于KL散度加上一个常量(信息熵),且公式相比KL散度更加容易计算,所以在机器学习中常常使用交叉熵损失函数来计算loss就行了。
nn.CrossEntropyLoss()
是nn.logSoftmax()
和nn.NLLLoss()
的整合,可以直接使用它来替换网络中的这两个操作,这个函数可以用于多分类问题。
注意:当使用CrossEntropyLoss做损失的时候,我们最后一层不做激活,因为CrossEntropyLoss自带softmax激活
torch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=- 100, reduce=None, reduction='mean', label_smoothing=0.0)
self.loss_fn = nn.CrossEntropyLoss(reduction='none', ignore_index=pad_token_idx)
loss = self.loss_fn(input, target)
input是二维的shape(预测对象的数量,每个对象所属类别的概率),Target的shape(input的第0维“所有对象对应的真实类别的标签”,)
- input(2,3):预测2个对象,每个对象分别属于三个类别分别的概率
- target(2,):两个对象真实的类别标签
import torch
import torch.nn as nn
loss_fn = nn.CrossEntropyLoss()
# 方便理解,此处假设batch_size = 1
x_input = torch.randn(2, 3) # 预测2个对象,每个对象分别属于三个类别分别的概率
# 需要的GT格式为(2)的tensor,其中的值范围必须在0-2(0
--output:
loss:
tensor(0.5060)
上面的例子展示了输入的tensor的维度为2维即shape为(N, C)的计算过程以及写代码中需要注意的点,我们实际用的过程中输入的tensor维度一般大于2,比如一个(B, N, C)的tensor作为输入,下面介绍一下应该怎么写。
首先看官方文档中关于若输入高维tensor的情况介绍。
如果我们输入的数据为(B, N, C),分别对应batch_size、 预测的N个对象、C个类别。根据图中文档的规定,第1维必须是类别数目(注意这里第1维而不是第0维),所以要先把输入换成(B, C, N);我们input的(B, C, N)对应的Target的格式就应该为(B, N)。【对于输入数据是三维的:Target的shape就是input的第0维和第2维】。
总结一下,首先把Input的shape调整为(B, C, N)后,确保Target的输入为(B, N)即可。
import torch
import torch.nn as nn
loss_fn = nn.CrossEntropyLoss()
# 假设batch_size = 2, 预测5个对象,类别C=18。
x_input = torch.randn(2, 5, 18) # (B,N,C)
x_input = x_input.permute(0, 2, 1) # (B,N,C)--->(B,C,N)[2,18,5]
# 根据前面对target的分析,需要的GT格式为(2, 5),其中的值范围必须在0-17之间。
x_target = torch.tensor([[1, 2, 17, 5, 0],
[3, 15, 7, 10, 8]])
loss = loss_fn(x_input, x_target)
print('loss:\n', loss)
PyTorch损失函数之交叉熵损失函数nn.CrossEntropyLoss()_交叉熵损失输入_zyoung17的博客-CSDN博客