官网- PyTorch
构造随机初始化矩阵
x=torch.rand(5,3)
构造全0矩阵,数据类型为long
x=torch.zeros(5,3,dtype=torch.long)
获取维度信息
x.size()
tensor加法
torch.add(x,y)== x+y ==y.add_(x)
改变tensor的大小和形状
获取value
x.item(
1:定义一个包含可训练参数的神经网络;
2:迭代整个输入;
3:通过网络对输入数据进行处理
4:计算与真实结果的损失;
5:反向传播梯度到神经网络的参数;
6:更新网络的参数,常用的::weight = weight - learning_rate *gradient
1)损失函数需要两个参数:模型输出和目标,通过计算损失函数的值来评估输出距离目标有多远;
2)grad变量会累积梯度;
3)每次反向传播更新梯度我们都需要把原来的梯度清空;
4)SGD
5)criterion用于定义损失函数
1)optimizer.step()用于更新神经网络的模型参数,通常在模型的反向传播后被调用,用于执行参数的梯度下降步骤;
2)查看gpu个数torch.cuda.device_count()
3)数据并行自动拆分了你的数据并且将任务单发送到多个 GPU 上。当每一个模型都完成自己的任务
之后,DataParallel 收集并且合并这些结果,然后再返回给你
数据加载与处理
4)如果这个 tensor x 的 requires_grad=True ,那么反向传播之后 x.grad 将会是另一个张量,其为x关于某个标量值的梯
度。
2)要冻结除最后一层之外的所有网络。通过设置 requires_grad == Falsebackward() 来冻结参数,这样在反向传播backward()的时候他们的梯度就不会被计算
3)计算转发:在神经网络中向前传递输入数据以获得模型输出的过程;
seq2seq
1)torch.save :将序列化对象保存到磁盘。此函数使用Python的 pickle 模块进行序列化。使
用此函数可以保存如模型、tensor、字典等各种对象。
2)torch.load :使用pickle的 unpickling 功能将pickle对象文件反序列化到内存。此功能还可
以有助于设备加载数据
3)torch.nn.Module.load_state_dict :使用反序列化函数 state_dict 来加载模型的参数字典。
4)state_dict将每一层映射到其参数张量,只有可以学习参数的层(例如卷积,线性层)才有stste_dict这一项;
5)打印模型的额状态字典
# 打印模型的状态字典
print("Model's state_dict:")
for param_tensor in model.state_dict():
print(param_tensor, "\t", model.state_dict()[param_tensor].size())
1)在 PyTorch 中通过跟踪工作导出模型。要导出模型,请调用 torch.onnx._export() 函数。这将执
行模型,记录运算符用于计算输出的轨迹。 因为 _export 运行模型,我们需要提供输入张量 x 。
这个张量的值并不重要; 它可以是图像或随机张量,只要它大小是正确的。