对函数求梯度(gradient)。PyTorch提供的autograd 包能够根据输⼊和前向传播过程自动构建计算图,并执⾏行反向传播。
Tensor 是这个包的核心类,如果将其属性 .requires_grad 设置为 True ,它将开始追
踪(track)在其上的所有操作(这样就可以利利⽤用链式法则进⾏行行梯度传播了了)。完成计算后,可以调
⽤用 .backward() 来完成所有梯度计算。此 Tensor 的梯度将累积到 .grad 属性中。
注意在 y.backward() 时,如果 y 是标量量,则不需要为 backward() 传⼊入任何参数;否则,需要
传⼊一个与 y 同形的 Tensor
如果不想要被继续追踪,可以调⽤ .detach() 将其从追踪记录中分离出来,这样就可以防⽌将来的计
算被追踪,这样梯度就传不过去了。此外,还可以用 with torch.no_grad() 将不不想被追踪的操作代
码块包裹起来,这种方法在评估模型的时候很常用,因为在评估模型时,我们并不需要计算可训练参数
( requires_grad=True )的梯度。
Function 是另外⼀个很重要的类。 Tensor 和 Function 互相结合就可以构建一个记录有整个计算过
程的有向无环图(DAG)。每个 Tensor 都有⼀一个 .grad_fn 属性,该属性即创建该 Tensor 的
Function , 就是说该 Tensor 是不是通过某些运算得到的,若是,则 grad_fn 返回⼀一个与这些运算相
关的对象,否则是None。
TENSOR
创建一个 Tensor 并设置 requires_grad=True :
x = torch.ones(2, 2, requires_grad=True)
print(x)
print(x.grad_fn)
tensor([[1., 1.],
[1., 1.]], requires_grad=True)
None
再做一下运算操作:
y = x + 2
print(y)
print(y.grad_fn)
tensor([[3., 3.],
[3., 3.]], grad_fn=
注意x是直接创建的,所以它没有 grad_fn , 而y是通过⼀一个加法操作创建的,所以它有一个为
print(x.is_leaf, y.is_leaf) # True False
再来点复杂度运算操作:
z = y * y * 3
out = z.mean()
print(z, out)
tensor([[27., 27.],
[27., 27.]], grad_fn=
通过 .requires_grad_() 来用in-place的⽅式改变 requires_grad 属性:
a = torch.randn(2, 2) # 缺失情况下默认 requires_grad = False
a = ((a * 3) / (a - 1))
print(a.requires_grad) # False
a.requires_grad_(True)
print(a.requires_grad) # True
b = (a * a).sum()
print(b.grad_fn)
False
True
梯度
因为 out 是⼀一个标量,所以调用 backward() 时不需要指定求导变量:
out.backward() # 等价于 out.backward(torch.tensor(1.))
print(x.grad)
tensor([[4.5000, 4.5000],
[4.5000, 4.5000]])
我们令 out 为o , 因为
而 torch.autograd 这个包就是用来计算⼀些雅克比矩阵的乘积的。
注意:grad在反向传播过程中是累加的(accumulated),这意味着每一次运⾏行反向传播,梯度都会累
加之前的梯度,所以⼀般在反向传播之前需把梯度清零。
再来反向传播一次,注意grad是累加的
out2 = x.sum()
out2.backward()
print(x.grad)
out3 = x.sum()
x.grad.data.zero_()
out3.backward()
print(x.grad)
tensor([[5.5000, 5.5000],
[5.5000, 5.5000]])
tensor([[1., 1.],
[1., 1.]])