amp错误ZeroDivisionError: float division by zero

#amp错误ZeroDivisionError: float division by zero
##查资料查了半天,发现网上大多给出的原因是除数里面有0
但是仔细查看代码报错的位置好像和apex中的amp有关
又结合一些网上的训练代码对比发现下列这块代码不一样,问题应该就是出在这块

                masks_pred = net(imgs)
                loss = criterion(masks_pred, true_masks)
                epoch_loss += loss.item()
                writer.add_scalar('Loss/train', loss.item(), global_step)
                pbar.set_postfix(**{'loss (batch)': loss.item()})

                optimizer.zero_grad()
                #loss.backward()
                with amp.scale_loss(loss, optimizer) as scaled_loss:
                     scaled_loss.backward()
                optimizer.step()

主要就是在这里

                optimizer.zero_grad()
                #loss.backward()
                
                with amp.scale_loss(loss, optimizer) as scaled_loss:
                     scaled_loss.backward()
                optimizer.step()

不太一样
修改方法:改成下面这样

                optimizer.zero_grad()
                loss.backward()
                
                #with amp.scale_loss(loss, optimizer) as scaled_loss:
                     #scaled_loss.backward()
                optimizer.step()```
重新运行训练代码,成功解决问题。即放弃了使用apex的加速功能,不过总比跑不起来代码要好!

你可能感兴趣的:(python,深度学习,机器学习,bug)