torch.tensor是包的核心类,若将其属性.requires_grad设置为True,则会开始跟踪tensor的所有操作,完成计算后,可以调用.backward()来自动计算所有梯度。该张量的梯度将累积到.grad属性中。
如果需要停止tensor历史记录的跟踪,可以调用.detach(),它将其余计算历史记录分离,并防止将来的计算被跟踪。要停止跟踪历史记录(和使用内存),可以将代码块使用with torch.no_grad()包装起来,在评估模型时,这特别有用,因为模型在训练阶段具有requires_grad=True的可训练参数有利于调参,而在评估阶段不需要梯度。还有一个类对于autograd实现非常重要那就是Function。Tensor和Function互相连接并构建一个非循环图,它保存整个完整的计算过程的历史信息。每个张量都有一个.grad_fn属性保存着创建了张量的Function的引用,(如果用户自己创建张量,则g_rad_fn是None)。如果想计算导数,可以调用Tensor.backward(),如果Tensor是标量(即它包含一个元素数据),则不需要指定任何参数backward(),但是如果他有更多元素,则需要指定一个gradient参数来指定张量的形状。
#!/usr/bin/env torch
# -*- coding:utf-8 -*-
# @Time : 2021/1/30, 14:37
# @Author: Lee
# @File : auto_grad.py
import torch
# 创建一个张量,设置requires_grad=True来跟踪它相关的计算
x = torch.ones(2, 2, requires_grad=True)
print("x = ", x)
"""
x = tensor([[1., 1.], [1., 1.]], requires_grad=True)
"""
# 对该张量做一个操作
y = x + 2
print("y = ", y)
print(y.grad_fn) # y作为操作的结果被创建,所以它有grad_fn
"""
y = tensor([[3., 3.],
[3., 3.]], grad_fn=)
"""
# 针对y做更多的操作
z = y * y * 3
out = z.mean()
print("z = ", z, "\nout = ", out)
"""
z = tensor([[27., 27.],
[27., 27.]], grad_fn=)
out = tensor(27., grad_fn=)
"""
# .requires_grad_(...)会改变张量的requires_grad标记,输入的标记默认为False,
# 如果没有提供相应的参数
a = torch.randn(2, 2)
a = ((a * 3) / (a - 1))
print("a.requires_grad = ", a.requires_grad)
"""
a.requires_grad = False
"""
a.requires_grad_(True)
print("after True, a.requires_grad = ", a.requires_grad)
"""
after True, a.requires_grad = True
"""
b = (a * a).sum()
print("b.grad_fn = ", b.grad_fn)
"""
b.grad_fn =
"""
# 现在向后传播,因为输出包含了一个标量,out.backward()等同于out.backward(torch.tensor(1.))
out.backward()
print("x.grad = ", x.grad) # 打印梯度d(out)/dx
"""
x.grad = tensor([[4.5000, 4.5000],
[4.5000, 4.5000]])
"""
# 雅克比向量积
x = torch.randn(3, requires_grad=True)
y = x * 2
while y.data.norm() < 1000:
y = y * 2
print("y = ", y)
"""
y = tensor([ 105.4538, -508.8583, 1537.1407], grad_fn=)
"""
# 现在在这种情况下,y不再是一个标量。torch.autograd不能够直接计算整个雅克比,但是如果我们
# 只想要雅克比向量积,只需要简单的传递向量给backward作为参数
v = torch.tensor([0.1, 1.0, 0.0001], dtype=torch.float)
y.backward(v)
print("x.grad = ", x.grad)
"""
x.grad = tensor([1.0240e+02, 1.0240e+03, 1.0240e-01])
"""
# 可以将代码包裹在with torch.no_grad(),来停止对从跟中历史中的.requires_grad=True的张量自动求导
print(" x.requires_grad = ", x.requires_grad)
print("(x ** 2).requires_grad = ", (x ** 2).requires_grad)
with torch.no_grad():
print("(x ** 2).requires_grad = ", (x ** 2).requires_grad)
"""
x.requires_grad = True
(x ** 2).requires_grad = True
(x ** 2).requires_grad = False
"""
以上代码中,需要明白out.backward(),对x求导的结果x.grad = tensor([[4.5000, 4.5000], [4.5000, 4.5000]])是如何得到的。根据代码中的计算过程可知:
总的来说,torch.autograd是一个对于雅克比矩阵向量积的计算工具。对于任一向量,计算向量积,如果恰好是一个标量函数,也就是说,,再由链式法则,这个雅克比向量向量积可以被表示成关于的梯度: