【原创】torch.autograd.backward()函数解读

torch.autograd.backward()函数解读

参考内容:

  • Automatic differentiation package - torch.autograd
    本文的目的是剖析backward()定义及使用方法。

1. torch.autograd.backward()的源码定义

作为计算向量或矩阵梯度的接口,torch.autograd.backward()在pytorch中的官方源码定义如下:

# torch.autograd提供了类和函数用来对任意标量函数进行求导。要想使用自动求导,只需要对已有的代码进行微小的改变。只需要将所有的tensor包含进Variable对象中即可。
torch.autograd.backward(variables, grad_variables, retain_variables=False)

Computes the sum of gradients of given variables w.r.t. graph leaves.给定图的叶子节点variables, 计算图中变量的梯度和。 计算图可以通过链式法则(chain rule)求导。如果variables中的任何一个variable是 非标量(non-scalar)的,且requires_grad=True。那么此函数需要指定grad_variables,它的长度应该和variables的长度匹配,里面保存了相关variable的梯度(对于不需要gradient tensorvariableNone是可取的)。
此函数累积leaf variables计算的梯度。你可能需要在调用此函数之前将leaf variable的梯度置零。

  • 参数说明:

  • variables (variable 列表) – 被求微分的叶子节点,即 ys

  • grad_variables (Tensor 列表) – 对应variable的梯度。仅当variable不是标量且需要求梯度的时候使用。

  • retain_variables (bool) – True,计算梯度时所需要的buffer在计算完梯度后不会被释放。如果想对一个子图多次求微分的话,需要设置为True

2. torch.autograd.backward()一般程序示例

y = 2 x T x y=2x^Tx y=2xTx中y对x的梯度:

x.grad.zero_() #梯度初始化,防止梯度累计
x = np.arange(4.0, requires_grad = True) #x需要求梯度
y = 2 * torch.dot(x,x) # $y=2x^Tx$
y.sum.backward() # 对矢量y先求和再回溯每个叶子结点求梯度
x.grad() #y对x的梯度

x.grad.zero_() #梯度初始化,防止梯度累计
x = np.arange(4.0, requires_grad = True) #x需要求梯度
y = 2 * torch.dot(x,x) 
y.backward(torch.ones_like(y)) # 对向量y求和就等价于y点乘维度相同的全1矩阵
x.grad() #生成并存储梯度变量(y对x的梯度)

可验证梯度正确与否:

x.grad = 4 * x
tensor([True, True, True, True])

3. 自我总结

torch.autograd.backward()函数特性如下:

  • torch.autograd.backward()用于神经网络的最后一层输出——loss function上By default, pytorch expects backward() to be called for the last output of the network - the loss function.;
  • torch.autograd.backward()只能用于标量,若计算向量或矩阵的梯度,须将向量或矩阵使用sum()函数转化成标量再求梯度;
  • sum()或ones()的方式并不会影响梯度计算结果,因为调用backward()后会根据链式法则(chain rule)自动计算并返回要求梯度的向量或矩阵的所有叶子节点的梯度值。

你可能感兴趣的:(python基础知识,program,python)