tensor与传统的numpy等工具不同的是,tensor的某些属性会使得它可以追踪在深度学习是需要计算的梯度以及一系列与深度学习相关的梯度等
那么我们在创建tensor时是可以显示的指定requires_grad=True or False 来确定一个张量是否需要梯度的计算
如果一个张量是由其他的张量运算而来的,那么只有当所有的输入的张量都不需要运算梯度的时候它才会被指定为不运算梯度
此外,每一个张量都有一个grad_fn属性,这个属性表明了一个张量是如何得到的,如果一个张量是直接创建的,那么它的grad_fn就会被指定为None,否则grad_fn会记录下输入用来运算的张量的地址和运算的方式以便于在反向传播中跟踪梯度
接下来我们创建一个tensor并指定其需要计算梯度
x = torch.ones(2, 2, requires_grad=True)
print(x)
print(x.grad_fn)
输出:
tensor([[1., 1.],
[1., 1.]], requires_grad=True)
None
接下来让我们做一次运算,然后再查看运算后的张量的grad_fn属性:
y = x + 2
print(y)
print(y.grad_fn)
结果:
tensor([[3., 3.],
[3., 3.]], grad_fn=)
可以看到,这时的y的grad_fn属性就说明了y是由加法运算而来
那么加下来让我们做一些稍微复杂一些的运算:
z = y * y * 3
out = z.mean()
print(z, out)
输出:
tensor([[27., 27.],
[27., 27.]], grad_fn=) tensor(27., grad_fn=)
可以看到z是由乘法运算而来而out是由平均计算而来
接下来让我们来用计算一下x的梯度吧,根据之前的推导我们可以得到
$${out=\frac14\sum_{i=1}^4z_i=\frac14\sum_{i=1}^43(x_i+2)^2}$$
我们用pytorch对x进行求导
out.backward()
# 等价于 out.backward(torch.tensor(1.)),因为out是标量,
#所以不需要参数,否则需要加入一个与out同样大小的张量作为权重
得到结果:
tensor([[4.5000, 4.5000],
[4.5000, 4.5000]])
可以很轻易地验证结果的正确性
那么我们对一个张量进行求导呢?
在pytorch中对张量进行求导的话要传入一个与张量形状相同的权重矩阵,因为在pytorch中不允许张量对张量的求导,只允许标量对张量求导,求导的结果是和自变量同形的张量
所以我们通过加权求和来将张量转换成标量
下面是一个例子:
x = torch.tensor([1.0, 2.0, 3.0, 4.0], requires_grad=True)
y = 2 * x
z = y.view(2, 2)
print(z)
v = torch.tensor([[1.0, 0.1], [0.01, 0.001]], dtype=torch.float)
z.backward(v)
print(x.grad)
结果:
tensor([[2., 4.],
[6., 8.]], grad_fn=)
tensor([2.0000, 0.2000, 0.0200, 0.0020])
可以看到得到的结果是一个和x同形的张量
那么在pytorch中我们其实可以隐藏某些计算使得其不在计算梯度的时候起作用,一般有with torch.no_grad():来进行这样的操作
例如:
x = torch.tensor(1.0, requires_grad=True)
y1 = x ** 2
with torch.no_grad():
y2 = x ** 3
y3 = y1 + y2
print(x.requires_grad)
print(y1, y1.requires_grad) # True
print(y2, y2.requires_grad) # False
print(y3, y3.requires_grad) # True
y3.backward()
print(x.grad)
结果:
True
tensor(1., grad_fn=) True
tensor(1.) False
tensor(2., grad_fn=) True
tensor(2.)
可以看到对于x只传播了从y1传播会的梯度,所以等于2。与y2相关的梯度并没有回传
此外如果我们想要修改tensor的数值又不被autograd记录的话,我们也可以直接对tensor的data进行操作:
x = torch.ones(1,requires_grad=True)
print(x.data) # 还是一个tensor
print(x.data.requires_grad) # 但是已经是独立于计算图之外
y = 2 * x
y.data*= 100 # 只改变了值,不会记录在计算图,所以不会影响梯度传播
y.backward()
print(x) # 更改data的值也会影响tensor的值
print(x.grad)
结果为:
tensor([1.])
False
tensor([1.], requires_grad=True)
tensor([2.])
而:
x = torch.ones(1,requires_grad=True)
print(x.data) # 还是一个tensor
print(x.data.requires_grad) # 但是已经是独立于计算图之外
y = 2 * x
y*= 100 # 记录在计算图,会影响梯度传播
y.backward()
print(x) # 更改data的值也会影响tensor的值
print(x.grad)
结果为:
tensor([1.])
False
tensor([1.], requires_grad=True)
tensor([200.])
本文主要参考了书籍dive into deep learining pytorch版第二章
书籍是开源的链接如下:
dive into deep learning