pytorch中loss为nan值

遇到的情况:在本地pytorch1.3.1运行无误。但是在服务器上,环境是pytorch1.2.0 则出现:loss变为NAN值,

尝试过的方法:

1)改变batchsize无作用。 2)调小学习率没作用。 3)数据做了归一化也没有作用 4)冻结了一些卷积层,也毫无作用

但是加了一句话:

    preds = preds.log_softmax(2).detach().requires_grad_()

这个问题就解决了!! 验证了一下是后半句detach().requires_grad()的核心问题。看有解释说切断了反向传播。但具体理念我不太懂。我用的ctcloss,不知道和函数有没有关系。 

--------更新于2020.1.7--------------

后来发现加上detach()后,loss虽然不是nan,但是并没有下降的趋势。于是把detach去掉了。

排查各种原因后发现是因为在服务器上用了CUDA加速,CTCLoss的四个输入都必须在cuda上,如果报错则将数据类型变为torch.long就可以了。

text = text.to(torch.long).cuda()
length = length.to(torch.long).cuda()
preds = net(image)
preds = preds.log_softmax(2)
preds_size = torch.LongTensor([preds.size(0)] * batch_size).cuda()
cost = criterion(preds, text, preds_size, length) / batch_size

 

你可能感兴趣的:(pytorch)