RuntimeError: grad can be implicitly created only for scalar outputs的原因:Pytorch不支持对张量的求导

一、背景介绍

原则上,Pytorch不支持对张量的求导,即如果z是张量的话,需要先将其转为标量。

浏览了很多博客,给出的解决方案都是说在求导时,加一个torch.ones_like(z)的参数。

下面给出一个实例来分析一下torch.ones_like(z)的作用。简而言之,torch.ones_like(z)相当于在对z进行求导时,对z中的元素进行求和操作,从而将其转为一个标量,便于后续的求导。

二、实例分析

▶代码1:

# 参考链接:
# https://blog.csdn.net/qq_39208832/article/details/117415229
# https://www.cnblogs.com/peixu/p/13201093.html
# https://zhuanlan.zhihu.com/p/83172023
# https://blog.csdn.net/weixin_45021364/article/details/105194187
# https://zhuanlan.zhihu.com/p/407043909
# https://blog.csdn.net/shyjhyp11/article/details/121743803
# https://www.zhihu.com/question/39523290
import torch

x = torch.tensor(3.,requires_grad=True)
p = torch.ones(2,2,requires_grad=True)

y = x*x
z = 2*y+2*p*p

z.backward(torch.ones_like(z))

print(x.grad)
print(p.grad)
# print(y.grad) # backward()无法对非叶子节点求导

# 知识点汇总:
# 原则上,Pytorch不支持对张量的求导,即如果z是张量的话,需要先将其转为标量。
# 就这个例子来说,z.backward(torch.ones_like(z))中的torch.ones_like(z)相当于在对z进行求导时,对z中的元素进行了求和操作,从而将其转为一个标量。

在这里插入图片描述

▶代码2:

import torch

x = torch.tensor(3.,requires_grad=True)
p = torch.ones(2,2,requires_grad=True)

y = x*x
z = 2*y+2*p*p

# z = z.sum() # 与下面的torch.sum(z)作用相同,即z中所有元素的和。
z = torch.sum(z)
z.backward()

print(x.grad)
print(p.grad)

在这里插入图片描述

通过对比上述两个代码,可以看到,下面两种写法是等效的,即torch.ones_like(z)参数相当于对z中的元素进行了求和操作。

  • z.backward(torch.ones_like(z))
  • z = torch.sum(z)
    z.backward()

关于上述代码的求导过程大家可以参考下图:

RuntimeError: grad can be implicitly created only for scalar outputs的原因:Pytorch不支持对张量的求导_第1张图片

▶代码3:

上面对张量z的处理是通过 求和 操作将其转为标量的,实际上,也可以通过 求均值 的形式将其转为标量,代码如下:

import torch

x = torch.tensor(3.,requires_grad=True)
p = torch.ones(2,2,requires_grad=True)

y = x*x
z = 2*y+2*p*p

z = z.mean() # z中所有元素的均值
z.backward()

print(x.grad)
print(p.grad)

在这里插入图片描述

写到这里,我好像就悟了为什么Pytorch中的交叉熵损失nn.CrossEntropyLoss()默认对batch中的n个样本的交叉损失求均值了!

我们知道,对于一个batch的数据来说,每个样本都有一个交叉熵损失,即该批数据的交叉熵损失是一个张量,但Pytorch是无法对张量进行求导的,因此必须对其进行转换。根据我们上面的代码展示,可知,我们可以通过对张量z进行求和或求均值的操作将其转为一个标量。

那么,为什么nn.CrossEntropyLoss()默认是对该批数据的交叉熵损失求均值呢?

大家可以仔细对比一下上述的代码展示,且不论张量z对张量p求导的合理性,就标量x来说,对z求均值后再对x求导的结果明显比对z求和后再对x求导的结果合理很多。由于深度学习中神经网络需要更新的参数即权重和偏置都属于标量,因此,选择对z求均值后再对权重/标量求导更合适。

当然,这都是我自己联想的,也不知道对不对。大家也可以思考一下,欢迎交流~

你可能感兴趣的:(深度学习,pytorch,python,深度学习)