参考内容:
作为计算向量或矩阵梯度的接口,torch.autograd.backward()在pytorch中的官方源码定义如下:
# torch.autograd提供了类和函数用来对任意标量函数进行求导。要想使用自动求导,只需要对已有的代码进行微小的改变。只需要将所有的tensor包含进Variable对象中即可。
torch.autograd.backward(variables, grad_variables, retain_variables=False)
Computes the sum of gradients of given variables w.r.t. graph leaves.给定图的叶子节点variables
, 计算图中变量的梯度和。 计算图可以通过链式法则(chain rule)求导。如果variables
中的任何一个variable
是 非标量(non-scalar)
的,且requires_grad=True
。那么此函数需要指定grad_variables
,它的长度应该和variables
的长度匹配,里面保存了相关variable
的梯度(对于不需要gradient tensor
的variable
,None
是可取的)。
此函数累积leaf variables
计算的梯度。你可能需要在调用此函数之前将leaf variable的梯度置零。
参数说明:
variables
(variable 列表) – 被求微分的叶子节点,即 ys
。
grad_variables
(Tensor 列表) – 对应variable
的梯度。仅当variable
不是标量且需要求梯度的时候使用。
retain_variables
(bool) – True
,计算梯度时所需要的buffer
在计算完梯度后不会被释放。如果想对一个子图多次求微分的话,需要设置为True
。
求 y = 2 x T x y=2x^Tx y=2xTx中y对x的梯度:
x.grad.zero_() #梯度初始化,防止梯度累计
x = np.arange(4.0, requires_grad = True) #x需要求梯度
y = 2 * torch.dot(x,x) # $y=2x^Tx$
y.sum.backward() # 对矢量y先求和再回溯每个叶子结点求梯度
x.grad() #y对x的梯度
或
x.grad.zero_() #梯度初始化,防止梯度累计
x = np.arange(4.0, requires_grad = True) #x需要求梯度
y = 2 * torch.dot(x,x)
y.backward(torch.ones_like(y)) # 对向量y求和就等价于y点乘维度相同的全1矩阵
x.grad() #生成并存储梯度变量(y对x的梯度)
可验证梯度正确与否:
x.grad = 4 * x
tensor([True, True, True, True])
torch.autograd.backward()函数特性如下: