F.nll_loss与F.cross_entropy(loss为nan时如何调整)

在用vgg16迁移学习时,fit函数中采用损失函数F.nll_loss()

def fit(epoch,model,data_loader,phase='training',volatile=False):#epoch参数在这里有什么用?
    if phase == 'training':
        model.train()
    if phase =='validation':
        model.eval()
        volatile =True
    running_loss = 0.0
    running_correct = 0
    for batch_idx,(data,target) in enumerate(data_loader):
        if is_cuda:
             data,target = data.cuda(),target.cuda()
        data,target = Variable(data,volatile),Variable(target)#volatile在这里是?requires_grad
        if phase =='training':
            optimizer.zero_grad()
        output = model(data)
        loss = F.nll_loss(output,target)
        running_loss += F.nll_loss(output,target,reduction='sum').item()
        preds = output.data.max(dim=1,keepdim=True)[1]
        running_correct+=preds.eq(target.data.view_as(preds)).cpu().sum()#eq用来判断二者是否相等
        if phase == 'training':
            loss.backward()
            optimizer.step()
    loss = running_loss/len(data_loader.dataset)
    accuracy = 100.*running_correct/len(data_loader.dataset)
    print(f"{phase} loss is {loss:{5}.{2}} and {phase} accuracy is {running_correct}/{len(data_loader.dataset)}{accuracy:{10}.{4}}")
    return loss,accuracy

打印训练过程:

训练后发现loss都为nan,查阅资料后总结后有以下可能性:
1.学习率太高。
2.loss函数
3.对于回归问题,可能出现了除0 的计算,加一个很小的余项可能可以解决。
4.数据本身是否存在Nan,可以用numpy.any(numpy.isnan(x))检查一下input和target。
5.target本身应该是能够被loss函数计算的,比如sigmoid激活。函数的target应该大于0,同样的需要检查数据集。

检查数据集后未发现问题,但F.nll_loss()的使用网络结构条件似乎点醒了我:NLLLoss 的 输入 是一个对数概率向量和一个目标标签. 它不会为我们计算对数概率. 适合网络的最后一层是log_softmax。回头查看之前有效的网络价格,果然最后一层都是log_softmax。但调用的models.vgg16(),无法改变内部网络结构,所以换用损失函数F.cross_entropy()

F.nll_loss与F.cross_entropy(loss为nan时如何调整)_第1张图片
下面对两种损失函数原理解析:
本来想自己整理,查阅资料无意中发现一篇写的很细的文章,贴在这里(偷懒。。。)
详解NLLLoss和CrossEntropyLoss

你可能感兴趣的:(pytorch,神经网络,深度学习,pytorch)