PyTorch 教程系列:https://blog.csdn.net/qq_38962621/category_10652223.html
torch.Tensor
类具有一个属性 requires_grad
用以表示该tensor是否需要计算梯度,如果该属性设置为True
的话,表示这个张量需要计算梯度,计算梯度的张量会跟踪其在后续的所有运算,当我们完成计算后需要反向传播(back propagation)计算梯度时,使用 .backward()
即可自动计算梯度。当然,对于一些我们不需要一直跟踪记录运算的tensor,也可以取消这一操作,尤其是在对模型进行验证的时候,不会对变量再做反向传播,所以自然不需要再进行追踪,从而减少运算。
一个tensor的 requires_grad
属性决定了这个tensor是否被追踪运算,对其主要的操作方式:
tensor.requires_grad
requires_grad
变量为True
(默认为False
)tensor.requires_grad_()
改变其值a=torch.rand(2,2,requires_grad=True)
print(a.requires_grad)
a.requires_grad_(False)
print(a.requires_grad)
True
False
每当对于requires_grad
为True
的tensor进行一些运算时(除了用户直接赋值、创建等操作),这些操作都会保存在变量的 grad_fn
属性中,该属性返回一个操作,即是上一个作用在这个变量上的操作:
x=torch.ones(2,2,requires_grad=True)
print(x.grad_fn)
y = x+2
print(y.grad_fn)
z = y*y*3
print(z.grad_fn)
out = z.mean()
print(out.grad_fn)
None
如果需要继续往前得到连续的操作,对grad_fu
使用 next_functions
即可获得其上一步的操作(next_functions
返回一个多层的tuple,真正的操作记录对象要经过两层的[0]
索引:
x=torch.ones(2,2,requires_grad=True)
y = x+2
z = y*y*3
out = z.mean()
print(out.grad_fn)
print(out.grad_fn.next_functions[0][0])
print(out.grad_fn.next_functions[0][0].next_functions[0][0])
对于requires_grad
为True
的tensor,在某一层运算结果的tensor上调用 backward()
方法,即可计算它对于原始tensor的梯度。比如 out=mean(z(y(x))
这样一个三层的运算作用后,使用 out.backward()
方法就可以对x进行求导(有条件的),完成求导后,梯度会存储在x
这个tensor的grad
属性下,每个tensor都有grad
属性,用于记录高层运算对它求导的梯度值。刚刚说到的有条件是指这个被求导的变量需要是一个只包含一个标量的tensor。
tensor.backward()
反向传播,对底层的求导结果,梯度会存储在最底层tensor的grad
属性中tensor.backward()
时需要传入作为反向传播的参数来计算Jacobian矩阵x=torch.ones(2,2,requires_grad=True)
y = x+2
z = y*y*3
out = z.mean()
out.backward()
print(x.grad)
y.backward(x)
print(x.grad)
tensor([[4.5000, 4.5000],
[4.5000, 4.5000]])
tensor([[5.5000, 5.5000],
[5.5000, 5.5000]])
有时我们并不需要追踪梯度,将requires_grad
设置为False
即可,但是由于有时候有些tensor需要在模型训练时计算梯度,在模型验证时不计算梯度,我们不希望直接对tensor的requires_grad
属性做更改,所以需要更好、更方便的设置方法:
使用with torch.no_grad()
语句块,放在这个语句块下的所有tensor操作(不影响tensor本身)都不会被跟踪运算:
x=torch.ones(2,2,requires_grad=True)
print((x**2).requires_grad)
with torch.no_grad():
print(x.requires_grad)
print((x**2).requires_grad)
True
True
False
使用tensor.detach()
方法获得一个跟原tensor值一样但是不会被记录运算的tensor(不改变原来的tensor属性):
x=torch.ones(2,2,requires_grad=True)
print(x.requires_grad)
y = x.detach()
print(x.requires_grad)
print(y.requires_grad)
True
True
False