PyTorch教程-2:PyTorch中反向传播的梯度追踪与计算

PyTorch 教程系列:https://blog.csdn.net/qq_38962621/category_10652223.html

PyTorch教程-2:PyTorch中反向传播的梯度追踪与计算

基本原理

torch.Tensor类具有一个属性 requires_grad 用以表示该tensor是否需要计算梯度,如果该属性设置为True的话,表示这个张量需要计算梯度,计算梯度的张量会跟踪其在后续的所有运算,当我们完成计算后需要反向传播(back propagation)计算梯度时,使用 .backward() 即可自动计算梯度。当然,对于一些我们不需要一直跟踪记录运算的tensor,也可以取消这一操作,尤其是在对模型进行验证的时候,不会对变量再做反向传播,所以自然不需要再进行追踪,从而减少运算。

追踪计算历史

一个tensor的 requires_grad 属性决定了这个tensor是否被追踪运算,对其主要的操作方式:

  • 查看/返回该属性:tensor.requires_grad
  • 定义该属性的值:在创建一个tensor时显式地声明 requires_grad 变量为True(默认为False
  • 更改该属性的值:使用 tensor.requires_grad_() 改变其值
a=torch.rand(2,2,requires_grad=True)
print(a.requires_grad)
a.requires_grad_(False)
print(a.requires_grad)

True
False

每当对于requires_gradTrue的tensor进行一些运算时(除了用户直接赋值、创建等操作),这些操作都会保存在变量的 grad_fn 属性中,该属性返回一个操作,即是上一个作用在这个变量上的操作:

x=torch.ones(2,2,requires_grad=True)
print(x.grad_fn)

y = x+2
print(y.grad_fn)

z = y*y*3
print(z.grad_fn)

out = z.mean()
print(out.grad_fn)

None



如果需要继续往前得到连续的操作,对grad_fu使用 next_functions 即可获得其上一步的操作(next_functions 返回一个多层的tuple,真正的操作记录对象要经过两层[0]索引:

x=torch.ones(2,2,requires_grad=True)
y = x+2
z = y*y*3
out = z.mean()

print(out.grad_fn)
print(out.grad_fn.next_functions[0][0])
print(out.grad_fn.next_functions[0][0].next_functions[0][0])




梯度计算

对于requires_gradTrue的tensor,在某一层运算结果的tensor上调用 backward() 方法,即可计算它对于原始tensor的梯度。比如 out=mean(z(y(x)) 这样一个三层的运算作用后,使用 out.backward() 方法就可以对x进行求导(有条件的),完成求导后,梯度会存储在x这个tensor的grad属性下,每个tensor都有grad属性,用于记录高层运算对它求导的梯度值。刚刚说到的有条件是指这个被求导的变量需要是一个只包含一个标量的tensor。

  • 对于结果只包含一个标量的tensor:使用 tensor.backward() 反向传播,对底层的求导结果,梯度会存储在最底层tensor的grad属性中
  • 对于结果是一个向量/矩阵的tensor,使用tensor.backward() 时需要传入作为反向传播的参数来计算Jacobian矩阵
x=torch.ones(2,2,requires_grad=True)
y = x+2
z = y*y*3
out = z.mean()

out.backward()
print(x.grad)

y.backward(x)
print(x.grad)

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])
tensor([[5.5000, 5.5000],
        [5.5000, 5.5000]])

取消追踪运算

有时我们并不需要追踪梯度,将requires_grad设置为False即可,但是由于有时候有些tensor需要在模型训练时计算梯度,在模型验证时不计算梯度,我们不希望直接对tensor的requires_grad属性做更改,所以需要更好、更方便的设置方法:

  • 使用with torch.no_grad() 语句块,放在这个语句块下的所有tensor操作(不影响tensor本身)都不会被跟踪运算:

    x=torch.ones(2,2,requires_grad=True)
    print((x**2).requires_grad)
    with torch.no_grad():
        print(x.requires_grad)
        print((x**2).requires_grad)
    

    True
    True
    False
    
  • 使用tensor.detach() 方法获得一个跟原tensor值一样但是不会被记录运算的tensor(不改变原来的tensor属性):

    x=torch.ones(2,2,requires_grad=True)
    print(x.requires_grad)
    y = x.detach()
    print(x.requires_grad)
    print(y.requires_grad)
    

    True
    True
    False
    

你可能感兴趣的:(PyTorch学习笔记,python,PyTorch)