在使用Pytorch时经常碰见这些函数cross_entropy,CrossEntropyLoss, log_softmax, softmax。
首先要知道上面提到的这些函数一部分是来自于torch.nn,而另一部分则来自于torch.nn.functional(常缩写为F)。二者函数的区别可参见 知乎:torch.nn和funtional函数区别是什么?
下面是对与cross entropy有关的函数做的总结:
torch.nn | torch.nn.functional (F) |
---|---|
CrossEntropyLoss | cross_entropy |
LogSoftmax | log_softmax |
NLLLoss | nll_loss |
下面将主要介绍torch.nn.functional中的函数为主,torch.nn中对应的函数其实就是对F里的函数进行包装以便管理变量等操作。
这个函数就是我们常说的softmax Loss。这里暂时只说一下pytorch中该函数的用法(主要是一些平时被忽略的参数)
函数原型为:
cross_entropy(input, target, weight=None, size_average=None, ignore_index=-100, reduce=None, reduction='elementwise_mean')
n
的 1—D
tensor
,包含类别的索引(0到 n-1
),要求 0 <= targets[i] <= C-11-D
tensor,n
个元素,分别代表n
类的权重,如果你的训练样本很不均衡的话,是非常有用的。默认值为None。,默认各类loss权重相同举几个例子来说明情况(只讲讲reduction,其他都好理解就不说了)
1.默认情况,reduction = 'elementwise_mean'
假设网络的输出为out,标签为target(需要LongTensor)。我们的Batch_size为2,总共两个样本,3类。
import torch.nn.functional as F
out = torch.Tensor([[1,2,3],[3,4,1]])
target = torch.LongTensor([0,1])
loss = F.cross_entropy(out,target)
print(loss)
"""
out 为
tensor(1.3783)
"""
2.reduction = 'sum'
import torch.nn.functional as F
out = torch.Tensor([[1,2,3],[3,4,1]])
target = torch.LongTensor([0,1])
loss = F.cross_entropy(out,target,reduction='sum')
print(loss)
"""
out 为
tensor(2.7566)
"""
观察一下,是不是等于1中loss的两倍呢?
3.reduction = 'none'
import torch.nn.functional as F
out = torch.Tensor([[1,2,3],[3,4,1]])
target = torch.LongTensor([0,1])
loss = F.cross_entropy(out,target,reduction='none')
print(loss)
"""
out 为
tensor([2.4076, 0.3490])
"""
此次输出就是一个和样本数相等的向量了(前两个情况都是一个数),观察一下对这个向量求和或者求平均是不是等于前两个情况呢?