在组会前一天遇到这个问题,试了各种解决办法都不可以,简直要疯辽,还等着实验结果做汇报呢……
RuntimeError: CUDA out of memory. Tried to allocate 486.00 MiB (GPU 0; 10.73 GiB total capacity; 8.78 GiB already allocated; 23.62 MiB free; 1.07 GiB cached)
就是这个问题,很奇怪,不知道那1.07GiB到底是什么占了,一样的超参数设置,之前从来没有遇到过这种问题……
言归正传,遇到这个问题,看了很多博客。
第一种解决方法
改小batch_size,在一定情况下是有用的。(但是我的已经改成1了,已经不能再小了)
第二种解决方法
在报错的地方加上这一句torch.cuda.empty_cache()
,这一句本来在我代码的epoch循环里就有了,为了避免错过潜在的解决方案,我还是试了一下,当然,没用……
第三种解决方法
加上这一条语句with torch.no_grad():
,很遗憾的是,在验证操作里或许是可以的,但是我的是训练操作出了问题……
第四种解决方法
同样,也是在验证操作或者测试操作里加上这么一句model.eval()
,同样,我本来的代码里就有了,而且在验证操作里,同样解决不了我的问题
第五种解决方法
loss和评价指标强制转换为float()类型的,或者在每个epoch的最后,都将loss删掉。同样,也尝试了一番,然而,这错误还是倔强地不肯走……
后续又遇到过好几次这个问题,遇到的次数多了发现,只要有变量转移到cuda()上了,在用不到的时候(或者是循环里,在循环的最后也要删掉)都要用del删掉,不然可能会出现跑了几个甚至十几个epoch后还会出现Cuda out of memory的情况。
此外,还有一种关于loss可能会引发Cuda out of memory的情况,详见https://ptorch.com/news/160.html
6. 第六种解决方法
多用几块GPU,但是现在没有多余的GPU可以用……,而且,就算有多余的GPU,这GPU的利用率也不高啊,怎么能解决这个问题,充分地利用资源呢?
7. 针对我的代码中出现的问题
在我的代码里,除了在train()和validate()函数中有将数据放到cuda上的代码,在计算评价指标时,也有将数据放到cuda上的代码,或许是只能在训练或者验证的一开始就将数据放到cuda上,不能在中间过程中转移数据(不是很确定),但是将中间过程中有cuda()的地方,改为在cpu()上跑,问题就解决了,不然哪怕多用几块GPU,都还是报错
train()和validate()中涉及到cuda()的代码:
def train(args, train_loader, model, criterion, optimizer, epoch, scheduler=None):
losses = AverageMeter()
ious = AverageMeter()
dices = AverageMeter() # 多了一个dice
model.train()
for i, (input, target) in enumerate(train_loader):
input = input.cuda()
target = target.cuda()
def validate(args, val_loader, model, criterion):
losses = AverageMeter()
ious = AverageMeter()
dices = AverageMeter() # 多了一个dice
# switch to evaluate mode
model.eval()
with torch.no_grad():
for i, (input, target) in enumerate(val_loader):
input = input.cuda()
target = target.cuda()
除了这两部分,在计算评价指标时,我也用到了cuda()
def iou_score(predict, target):
smooth = 1e-5
# 先one-hot,再转换成(batch_size, -1)来求
target = torch.eye(2)[target.long()]
target = target.permute(0, 4, 1, 2, 3).float()
# predict需要经过sigmoid
predict = torch.sigmoid(predict)
batch_size = predict.shape[0]
predict = predict.contiguous().view(batch_size, -1)
target = target.contiguous().view(batch_size, -1)
predict = predict.cuda()
target = target.cuda()
intersection = (predict * target).sum()
iou = (intersection + smooth) / (predict.sum() + target.sum() - intersection + smooth)
return iou
上述代码的cuda()就是导致出错的地方。后将这两条语句删掉,改为放到cpu()上运行,就没问题了
def iou_score(predict, target):
smooth = 1e-5
# 先one-hot,再转换成(batch_size, -1)来求
target = torch.eye(2)[target.long()]
target = target.permute(0, 4, 1, 2, 3).float()
# predict需要经过sigmoid
predict = torch.sigmoid(predict)
batch_size = predict.shape[0]
predict = predict.contiguous().view(batch_size, -1)
target = target.contiguous().view(batch_size, -1)
predict = predict.data.cpu().numpy()
target = target.data.cpu().numpy()
intersection = (predict * target).sum()
iou = (intersection + smooth) / (predict.sum() + target.sum() - intersection + smooth)
return iou