Pytorch基础(二) 初始自动微分

torch.tensor是包的核心类,若将其属性.requires_grad设置为True,则会开始跟踪tensor的所有操作,完成计算后,可以调用.backward()来自动计算所有梯度。该张量的梯度将累积到.grad属性中。

如果需要停止tensor历史记录的跟踪,可以调用.detach(),它将其余计算历史记录分离,并防止将来的计算被跟踪。要停止跟踪历史记录(和使用内存),可以将代码块使用with torch.no_grad()包装起来,在评估模型时,这特别有用,因为模型在训练阶段具有requires_grad=True的可训练参数有利于调参,而在评估阶段不需要梯度。还有一个类对于autograd实现非常重要那就是Function。Tensor和Function互相连接并构建一个非循环图,它保存整个完整的计算过程的历史信息。每个张量都有一个.grad_fn属性保存着创建了张量的Function的引用,(如果用户自己创建张量,则g_rad_fn是None)。如果想计算导数,可以调用Tensor.backward(),如果Tensor是标量(即它包含一个元素数据),则不需要指定任何参数backward(),但是如果他有更多元素,则需要指定一个gradient参数来指定张量的形状。


#!/usr/bin/env torch
# -*- coding:utf-8 -*-
# @Time  : 2021/1/30, 14:37
# @Author: Lee
# @File  : auto_grad.py


import torch

# 创建一个张量,设置requires_grad=True来跟踪它相关的计算
x = torch.ones(2, 2, requires_grad=True)
print("x = ", x)
"""
x =  tensor([[1., 1.], [1., 1.]], requires_grad=True)     
"""

# 对该张量做一个操作
y = x + 2
print("y = ", y)
print(y.grad_fn)  # y作为操作的结果被创建,所以它有grad_fn
"""
y =  tensor([[3., 3.],
        [3., 3.]], grad_fn=)
      
"""

# 针对y做更多的操作
z = y * y * 3
out = z.mean()
print("z = ", z, "\nout = ", out)
"""
z =  tensor([[27., 27.],
        [27., 27.]], grad_fn=) 
out =  tensor(27., grad_fn=)
"""

# .requires_grad_(...)会改变张量的requires_grad标记,输入的标记默认为False,
# 如果没有提供相应的参数
a = torch.randn(2, 2)
a = ((a * 3) / (a - 1))
print("a.requires_grad = ", a.requires_grad)
"""
a.requires_grad =  False
"""
a.requires_grad_(True)
print("after True, a.requires_grad = ", a.requires_grad)
"""
after True, a.requires_grad =  True
"""
b = (a * a).sum()
print("b.grad_fn = ", b.grad_fn)
"""
b.grad_fn =  
"""

# 现在向后传播,因为输出包含了一个标量,out.backward()等同于out.backward(torch.tensor(1.))
out.backward()
print("x.grad = ", x.grad)  # 打印梯度d(out)/dx
"""
x.grad =  tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])
"""

# 雅克比向量积
x = torch.randn(3, requires_grad=True)
y = x * 2
while y.data.norm() < 1000:
    y = y * 2
print("y = ", y)
"""
y =  tensor([ 105.4538, -508.8583, 1537.1407], grad_fn=)
"""

# 现在在这种情况下,y不再是一个标量。torch.autograd不能够直接计算整个雅克比,但是如果我们
# 只想要雅克比向量积,只需要简单的传递向量给backward作为参数
v = torch.tensor([0.1, 1.0, 0.0001], dtype=torch.float)
y.backward(v)
print("x.grad = ", x.grad)
"""
x.grad =  tensor([1.0240e+02, 1.0240e+03, 1.0240e-01])
"""

# 可以将代码包裹在with torch.no_grad(),来停止对从跟中历史中的.requires_grad=True的张量自动求导
print(" x.requires_grad = ", x.requires_grad)
print("(x ** 2).requires_grad = ", (x ** 2).requires_grad)
with torch.no_grad():
    print("(x ** 2).requires_grad = ", (x ** 2).requires_grad)
"""
x.requires_grad = True
(x ** 2).requires_grad = True
(x ** 2).requires_grad = False
"""

 以上代码中,需要明白out.backward(),对x求导的结果x.grad =  tensor([[4.5000, 4.5000],  [4.5000, 4.5000]])是如何得到的。根据代码中的计算过程可知:

out=\frac{1}{4}\sum_{i}z_{i},z_{i}=3(x_{i}+1)^2 and z_{i}|_{x_{i}=1}=27

\frac{\partial {out}}{\partial {x_{i}}}=\frac{3}{2}(x_{i}+2)\rightarrow \frac{\partial {out}}{\partial {x_{i}}}|_{x_{i}=1}=\frac{9}{2}=4.5
在数学上,如果有\vec{y}=f(\vec{x}),那么\vec{y}对于\vec{x}的导数是一个雅克比矩阵:

J=\begin{bmatrix} {\frac{\partial {y_{1}}}{\partial {x_{1}}}} & {\cdots } & {\frac{\partial {y_{m}}}{\partial {x_{1}}}} \\ {\vdots } & {\ddots } & {\vdots } \\ {\frac{\partial {y_{1}}}{\partial {x_{n}}}} & {\cdots } & {\frac{\partial {y_{m}}}{\partial {x_{n}}}} \end{bmatrix}

总的来说,torch.autograd是一个对于雅克比矩阵向量积的计算工具。对于任一向量v =\begin{bmatrix} v_{1} & v_{2} & \cdots & v_{m} \end{bmatrix}^T,计算向量积J\cdot v,如果v恰好是一个标量函数l=g(\vec{y}),也就是说,v = \begin{bmatrix} {\frac{\partial l}{\partial {y_{1}}}} & {\cdots } & {\frac{\partial l}{\partial {y_{m}}}} \end{bmatrix}^T,再由链式法则,这个雅克比向量向量积可以被表示成l关于\vec{x}的梯度:

J\cdot v=\begin{bmatrix} {\frac{\partial {y_{1}}}{\partial {x_{1}}}} & {\cdots } & {\frac{\partial {y_{m}}}{\partial {x_{1}}}} \\ {\vdots } & {\ddots } & {\vdots } \\ {\frac{\partial {y_{1}}}{\partial {x_{n}}}} & {\cdots } & {\frac{\partial {y_{m}}}{\partial {x_{n}}}} \end{bmatrix}\begin{bmatrix} {\frac{\partial {l}}{\partial {y_{1}}}} \\ \vdots \\ {\frac{\partial {l}}{\partial {y_{m}}}} \end{bmatrix}=\begin{bmatrix} {\frac{\partial {l}}{\partial {x_{1}}}} \\ \vdots \\ {\frac{\partial {l}}{\partial {x_{n}}}} \end{bmatrix}

你可能感兴趣的:(pytorch)