Pytorch中为什么优化器的梯度会累加在一起?

每次做反向传播之前都要归零梯度,optimizer.zero_grad()    ---> 原因在于如果不清零,他们的梯度会一直累加造成结果不收敛

相关链接:【PyTorch】PyTorch中的梯度累加 - lart - 博客园 (cnblogs.com)

 Pytorch中为什么优化器的梯度会累加在一起?_第1张图片

 Pytorch中为什么优化器的梯度会累加在一起?_第2张图片

 Pytorch中为什么优化器的梯度会累加在一起?_第3张图片

你可能感兴趣的:(人工智能,pytorch,python,人工智能)