TimsonShi

神经翻译笔记5扩展d. PyTorch学习笔记

文章目录

神经翻译笔记5扩展d. PyTorch学习笔记
- PyTorch与张量
- - 自动微分
  - - 简介
    - 示例
    - 进一步的数学解释
    - 示例2. “冷冻”某个子图以微调预训练模型
- 使用PyTorch定义一个神经网络
- - 定义网络
  - 损失函数和参数更新
- 常用的PyTorch包及其连携
- - `torch.utils.data.Dataset`
  - `torch.utils.data.DataLoader`
  - `torch.optim`
  - `torch.nn`
  - - 构造函数
    - 成员变量的设置
    - `parameters()`
    - `forward()`和`__call__`
- 结语

神经翻译笔记5扩展d. PyTorch学习笔记

PyTorch与张量

本文主要对PyTorch的使用做一简单介绍，本节主要来自于PyTorch官网Deep Learning with PyTorch: A 60 Minute Blitz这一栏目的文字内容，并忽略了一些代码

PyTorch的核心是张量，张量类似于Numpy的ndarray，但是可以在GPU上加速计算。使用如下方法可以创造一个大小为 $\times 3$ 的二维张量

import torch
# 空张量，不初始化
x = torch.empty(5,3)
# 随机初始化
x = torch.rand(5, 3)  
# 初始化为0且类型为long
x = torch.zeros(5, 3, dytpe=torch.long)
# 直接通过数据构建
x = torch.tensor([5.5, 3])
# 获取张量的“尺寸”
print(x.size())

张量有很多种操作，以加法为例举例如下

y = torch.rand(5, 3)
# 写法一
print(x + y)
# 写法二
print(torch.add(x, y))
# 就地操作，修改y
y.add_(x) # 所有就地操作都会以下划线_结尾
# resize可以使用torch.view
# 一维张量可以通过.item()获取值作为python自带的数字形式
x = torch.randn(1)
print(x.item())

PyTorch张量和numpy数组可以便捷地互相转化。如果张量在CPU上，那么它和对应的numpy数组共享内存，修改了一个也会修改另一个。使用.numpy()将张量转化成numpy数组，使用torch.from_numpy(x)将numpy数组转化成张量

张量可以通过成员函数.to()转移到某个设备

if torch.cud.is_available():
    device = torch.device('cuda')          # 一个CUDA设备对象
    y = torch.ones_like(x, device=device)  # 直接在GPU上创建张量
    x = x.to(devices)                      # x.to('cuda')也可
    z = x + y
    print(z)
    print(z.to('cpu', torch.double))       # ".to()"也可以修改数据类型

自动微分

简介

PyTorch中各神经网络的核心是torch.autograd这个包，其为张量的所有操作提供自动微分计算

如果将张量的属性.requires_grad设置为True，框架会追踪对其所作的所有操作。计算结束时，可以调用.backward()来自动计算梯度，所有梯度信息被写进.grad属性。这是因为张量背后的Tensor类会和操作背后的Function类交互，构建一个有向无环图，这张图可以编码计算的全部历史。每个向量都有一个属性.grad_fn，该属性指向一个Function类对象，这个对象所代表的的函数创建了该张量（用户手动创建的张量除外，这种张量的grad_fn为None）

要想停止追踪一个张量的梯度更新信息，可以调用.detach()，也可以将代码块放进with torch.no_grad()这一上下文环境中。这种办法在评估模型时尤其有用，因为此时不需要计算模型中参数的梯度

示例

这里给出一个计算梯度的示例程序

import torch

x = torch.ones(2, 2, requires_grad=True)
y = x + 2
z = y * y * 3
out = z.mean()
out.backward()
print(x.grad) 
# 输出结果
# tensor([[4.5000, 4.5000],
#         [4.5000, 4.5000]])

假设输出张量out记为 $o$ ，则有

$\begin{aligned} o &= \frac{1}{4}\sum_i z_i,\ z_i = 3(x_i + 2)^2,\ z_i\bigg\rvert_{x_i = 1} = 27 \\ \therefore \frac{\partial o}{\partial x_i} &= \frac{3}{2}(x_i + 2),\ \frac{\partial o}{\partial x_i}\bigg\rvert_{x_i = 1} = 4.5 \end{aligned}$

进一步的数学解释

假设有一个函数 $f:\mathbb{R}^n \rightarrow \mathbb{R}^m$ ，则输出 $\boldsymbol{y}$ 对输入 $\boldsymbol{x}$ 的梯度为一个雅可比矩阵

$\boldsymbol{J} = \left[\begin{matrix} \frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_m}{\partial x_1} & \cdots & \frac{\partial y_m}{\partial x_n} \end{matrix}\right]$

torch.autograd就是一个计算向量-雅可比矩阵乘积的引擎。也就是，给定任何向量 $\boldsymbol{v} = \left[\begin{matrix}v_1 & v_2 & \cdots & v_m\end{matrix}\right]^\mathsf{T}$ ，计算 $\boldsymbol{v}^\mathsf{T} \cdot \boldsymbol{J}$ 。如果 $\boldsymbol{v}$ 是标量函数 $g(\boldsymbol{y})$ 的梯度，也就是 $\boldsymbol{v} = \left[\begin{matrix}\frac{\partial l}{\partial y_1} & \frac{\partial l}{\partial y_2} & \cdots & \frac{\partial l}{\partial y_m}\end{matrix}\right]^\mathsf{T}$ ，根据链式法则，向量-雅可比矩阵的乘积就是 $l$ 对 $\boldsymbol{x}$ 的梯度，即

$\boldsymbol{J}^\mathsf{T}\cdot \boldsymbol{v} = \left[\begin{matrix} \frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_m}{\partial x_1} & \cdots & \frac{\partial y_m}{\partial x_n} \end{matrix}\right]\left[\begin{matrix}\frac{\partial l}{\partial y_1} \\ \vdots \\ \frac{\partial l}{\partial y_m} \end{matrix}\right] = \left[\begin{matrix}\frac{\partial l}{\partial x_1} \\ \vdots \\ \frac{\partial l}{\partial x_n} \end{matrix}\right]$

示例2. “冷冻”某个子图以微调预训练模型

如果某个操作有某个输入需要梯度，那么输出也会需要梯度；反之，如果某个操作的所有输入都不需要梯度，那么输出也不需要，反向传播计算不在这个子图上进行

x = torch.randn(5, 5)  # 默认不需梯度
y = torch.randn(5, 5)
a = x + y              # 输入x和y都不需梯度，所以a不需
z = torch.randn((5, 5), requires_grad=True)
b = a + z              # z需要梯度，尽管a不需要，也不妨碍b需要梯度

使用该特点，可以固定预训练模型权重，微调分类器，如下所示

model = torchvision.models.resnet18(pretrained=True)
for param in model.parameters():
    param.requires_grad = False

# 替换最后一个全连接层
# 新创建的模块默认requires_grad=True
model.fc = nn.Linear(512, 100)

# 只优化分类器
optimizer = optim.SGD(model.fc.parameters(), lr=1e-2, momentum=0.9)

使用PyTorch定义一个神经网络

本节来自于PyTorch官网的Deep Learning with PyTorch: A 60 Minute Blitz中Neural Network部分，但是具体网络定义来自于使用字符级RNN判别名字所属国家/地区这一示例的代码

通常使用torch.nn来定义一个神经网络。用户定义“层”（layer）和层的前向计算逻辑，PyTorch通过前面提到的autograd来自动计算反向传播逻辑。定义并训练一个网络时，一般包括如下几步

定义网络的可学习参数（权重）
从一个数据集迭代读取输入
使用网络处理数据（前向计算）
计算损失值（输出离正确值有多远）
将梯度回传给网络参数
更新网络参数

定义网络

用户定义的网络一般需要继承自torch.nn.Module类，具体后面解释。定义时，通常包括两项内容：在构造函数中定义参数，在forward函数中定义计算逻辑。一旦forward被定义好，backward参数（也就是梯度计算和传播的逻辑）会通过autograd自动定义。具体如下所示

class RNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(RNN, self).__init__()

        self.hidden_size = hidden_size

        self.i2h = nn.Linear(input_size + hidden_size, hidden_size)
        self.i2o = nn.Linear(input_size + hidden_size, output_size)
        self.softmax = nn.LogSoftmax(dim=1)

    def forward(self, input, hidden):
        combined = torch.cat((input, hidden), 1)
        hidden = self.i2h(combined)
        output = self.i2o(combined)
        output = self.softmax(output)
        return output, hidden

    def initHidden(self):
        return torch.zeros(1, self.hidden_size)

n_hidden = 128
rnn = RNN(n_letters, n_hidden, n_categories)

模型的可学习参数通过rnn.parameters()返回

这里我们涉及了如下四个关键类

torch.Tensor：实际上是一个多维数组，但是支持诸如backward这样的自动微分操作，并且保存关于这个张量的梯度
nn.Module：神经网络模块，提供一种便捷的手段来封装参数
nn.Parameter：Tensor的一种，当它被赋给Module子类的一个属性时，自动注册为参数。具体后文再解释
autograd.Function：实现一个可被自动微分操作的前向计算逻辑和反向计算逻辑。每个Tensor操作创建至少一个Function节点，将其与创建Tensor的操作连接，并记录历史

损失函数和参数更新

损失函数一般接收两个参数，输出和目标值，并计算模型输出的预测值离目标值有多远。这一问题我们使用NLLLoss (negative log likelihood loss)。求得损失以后，调用backward，就可以得到损失值对各参数的梯度。通常使用torch.optim中的优化器来根据梯度执行参数更新策略

示例代码如下

import torch.optim as optim
hidden = rnn.initHidden()
optimizer = optim.SGD(rnn.parameters(), lr=0.005)

# 必须手动调用zero_grad将所有参数缓存的梯度清零
# 否则新的梯度会累加到已有的梯度上
rnn.zero_grad()
# Blitz中的代码示例用的是optimizer.zero_grad()
# 当优化器参数为model.parameters()时，两者等价

for i in range(line_tensor.size()[0]):
    output, hidden = rnn(line_tensor[i], hidden)

criterion = nn.NLLLoss()
loss = criterion(output, category_tensor)

# 调用时，计算并更新梯度
loss.backward()
# 更新参数
optimizer.step()

常用的PyTorch包及其连携

PyTorch官网的What is torch.nn really?一文（以下简称原文）以一个简单的MNIST数据分类任务为例，介绍了PyTorch常用的几个包。这里不想将全部代码贴出，仅准备对其提到的这些包做一简单分析

`torch.utils.data.Dataset`

原文使用的是torch.utils.data.TensorDataset，不过该类继承自抽象基类torch.utils.data.Dataset。从本质上讲，Dataset类，如名字所示，提供了数据访问的功能，即给定一个索引，该类的实现需要能返回索引对应的数据，因此所有子类肯定是要实现抽象方法__getitem__(self, index)。同时，文档还要求子类实现__len__方法，来返回数据集的大小

原文使用的TensorDataset类实现非常简洁，具体代码如下所示（可以作为自己定义Dataset子类的一个简单示例）

class TensorDataset(Dataset):
    def __init__(self, *tensors):
        assert all(tensors[0].size(0) == tensor.size(0) for tensor in tensors)
        self.tensors = tensors

    def __getitem__(self, index):
        return tuple(tensor[index] for tensor in self.tensors)

    def __len__(self):
        return self.tensors[0].size(0)

新建对象时可以将样本和标签各自的向量一同传给构造函数，打包成一个大的数据集

((x_train, y_train), (x_valid, y_valid), _) = pickle.load(f, encoding='latin-1')
x_train, y_train, x_valid, y_valid = map(torch.tensor, (x_train, y_train, x_valid, y_valid))
train_ds = TensorDataset(x_train, y_train)
valid_ds = TensorDataset(x_valid, y_valid)

常见的Dataset对象通常都可以看做是映射风格（map style）的，因为它们实现了根类的__getitem__方法，所以可以方便地随机访问数据集中的对象。但是Dataset有一个子类IterableDataset，按照设计其不应该重写__getitem__方法，而是应该重写__iter__方法来顺序访问数据集中的数据。该子类通常是为了在随机读操作比较重的情况下使用，例如访问数据库、流数据等等

`torch.utils.data.DataLoader`

数据集（即Dataset对象）通常作为参数传递给torch.utils.data.DataLoader类的构造函数，以创建一个DataLoader类对象

train_dl = DataLoader(train_ds, batch_size=BATCH_SIZE, shuffle=True)
valid_dl = DataLoader(valid_ds, batch_size=BATCH_SIZE)

该对象负责访问数据集，将其随机划分，按照batch大小返回每个batch的数据和对应的标签。DataLoader默认的构造函数有多个参数，这里暂时只选择上述代码片段中涉及的参数和一些比较重要的参数介绍，分别有

dataset，即所访问的数据集
batch_size，每个batch所装载的样本数量
shuffle，即每个epoch（将数据集完整访问过一遍）后是否重新打乱数据集
sampler，是一个torch.utils.data.Sampler类对象，其通过重写__iter__方法来控制以什么顺序访问数据源的元素，即其本质是决定DataLoader的读取方法。如果用户没有自定义一个sampler，则采取如下逻辑设置默认sampler：如果所访问的数据集是IterableDataset，则使用_InfiniteConstantSampler；如果所访问的数据集可随机读，则在shuffle为True时使用RandomSampler，否则使用SequentialSampler
batch_sampler，和sampler一致，只不过返回一个batch大小的索引集合
drop_last，设为True时如果最后一个batch的样本数量少于batch_size，则丢弃这些数据
num_workers，同时需要多少个子进程读数据

DataLoader在被迭代时，首先调用其重写的__iter__方法，返回一个_BaseDataLoaderIter可迭代对象实例，当num_workers为0时，为单线程读取，返回_SingleProcessDataLoaderIter对象；否则多线程读取返回_MultiProcessingDataLoaderIter对象。两者都会调用自己的__next__方法，先获得索引列表，然后调用成员变量_dataset_fetcher的fetch方法从这些索引获取数据并返回

真正使用时，使用for循环迭代即可

for xb, yb in train_dl:
    loss = loss_func(model(xb), yb)
    loss.backward()
    opt.step()
    opt.zero_grad()

`torch.optim`

本节参考了torch.optim的官方文档

优化器所在的包，里面封装了各种优化器的实现，例如SGD、Adam等。所有优化器都继承自torch.optim.Optimizer这个基类，各自实现不同的step方法以更新模型参数

要构造一个优化器实例，需要传递给它一个可迭代的参数列表，通常是调用给定模型（一般是torch.nn.Module子类对象）的parameters()方法

optimizer = optim.SGD(model.parameters(), lr=0.5)

优化器内部维护的实际上是参数组。默认情况下（如上例所示）参数组只有一组，但是可以通过传入字典列表来实现对参数的分组，从而对不同的参数施加不同学习率或其他设置，例如

optim.SGD([
    {'params': model.base.parameters()},
    {'params': model.classifier.parameters(), 'lr': 1e-3}
], lr=1e-2, momentum=0.9)

即model.base的参数使用默认配置lr=1e-2, momentum=0.9，但是对model.classifier设置学习率为1e-3

`torch.nn`

最后来说说torch.nn这个包。个人感觉这是PyTorch最核心的组件之一，其中torch.nn.functional相对独立，提供了各种函数实现，例如激活函数、损失函数等（感觉像是个utils这样的工具集合）

这个包中最核心的自然是torch.nn.Module类（以下简称Module类）。如前所述，这个类是所有神经网络层的基类。前面给出了如何继承该类，自定义一个模型结构，因此这里不再在应用层面赘述，只对该类的几个核心逻辑做简单分析

构造函数

Module在构造函数中被创建的成员变量并不多，这些属性可以根据用途分为三类

self.training，标志该层所处的状态。一些层，例如Dropout和BatchNorm等，其训练时的行为和推断时的行为有不同，需要根据该属性判断。默认为True
三个重要的字典self._parameters、self._modules和self._buffers，都是OrderedDict类对象，按照名字存储。其中_parameters存储层所需要的的参数（例如线性层，就是权重W和偏置b）；_modules存储子层，例如前面自己实现的RNN类包含一个线性层Linear对象；_buffers缓存一些不是参数（不参与反向传播，不需要保存梯度），但是需要保存状态的成员变量，例如BatchNorm中的running_mean。_buffers中的成员可以被持久化，持久化的buffer会被保存在层的状态字典state_dict中
其它关于本层的钩子函数，其中一部分在后面介绍

成员变量的设置

Module类重写了__setattr__方法，这样子类在构造函数中创建成员变量时会有些特殊操作，比较重要的两个有

如果成员变量是nn.Parameter类对象，那么会自动调用register_parameter方法，将其加入_parameters中
如果成员变量是nn.Module类对象，那么会自动调用add_module方法，将其加入_modules中

如前所述，nn.Parameter类是Tensor类的一个子类，其特点除了会被层对象自动注册进_parameters列表以外，还有就是会自动设置requires_grad属性为True。因此，该类对象的梯度会被保存，同时在层对象通过调用parameters()方法时会被给出，可以被优化器获得然后更新参数

`parameters()`

Module类通过parameters方法给出自身所有参数，传递给优化器做更新。其核心实现逻辑是先递归获得自身的所有module（包括自身），然后对每个module获取其parameters。可将parameters方法的recurse设为False来避免递归搜索子module

`forward()`和`call`

所有Module的子类都需要实现forward方法，即前向计算逻辑。此外，Module基类重写了__call__方法，因此可以用类似调用函数的方式“调用”Module子类实例，进行前向计算。事实上，也应该使用这种方法做前向计算，而非调用forward，因为重写的__call__除了调用forward以外，还调用了一些钩子函数。如果开发者想加入一些额外的行为，重写这些钩子函数即可

__call__方法的计算流程大致为

def __call__(self, *input):
    # 对输入张量，逐个调用_forward_pre_hooks中的函数
    # 使用register_forward_pre_hook注册该类钩子函数
    for hook in self._forward_pre_hooks.values():
        input = hook(self, input)
    result = self.forward(input)
    # 对前向计算的结果，逐个调用_forward_hooks中的函数
    # 使用register_forward_hook注册该类钩子函数
    for hook in self._forward_hooks.values():
        result = hook(self, result)
    # 在对应的梯度函数中，逐个注册_backward_hooks中的函数。这些函数在计算模块输入的梯度时被调用
    # 使用register_backward_hook注册该类钩子函数
    for hook in self._backward_hooks.values():
        result.grad_fn.register_hook(hook)
    return result

结语

总地说来，使用PyTorch构建并训练模型，大致可以总结为如下模式

import torch

# 定义自己的module
class MyModule(torch.nn.Module):
    def __init__():
        super().__init__()
        # 定义自己的成员变量
        # 对module需要的参数，使用torch.nn.Parameter。
        # 该类是Tensor的子类，自动设置requires_grad为True
        # 且会被注册进参数列表，可以被parameters()方法包含
        # 常见地，也会新建其它module类对象，作为子模块

    def forward(input):
        # 定义前向计算逻辑
        # 个人感觉，在定义前向计算逻辑的过程中，实际上也在建立计算图
        # 用户定义的参数作为图的叶子节点，各种操作实际都是torch.autograd.Function类的子类对象
        # 所有运算符其实也被重写了背后的逻辑，这样，内部通过运算得到的张量对象和函数对象建立了对应关系
        # 每个函数对象都定义了前向计算的方法和反向计算的方法。在反向传播求梯度时，调用反向计算方法即可
        # 关于建图，有一篇老文很透彻 https://www.cnblogs.com/catnip/p/8760780.html 
        # 上文可能有些过时，等待熟悉PyTorch深入原理后再结合该文看代码

# 建立torch.utils.data.Dataset对象
# 建立DataLoader，将其与dataset相关联
train_dl = DataLoader(train_ds, batch_size=BATCH_SIZE, shuffle=True)
valid_dl = DataLoader(valid_ds, batch_size=BATCH_SIZE)

model = MyModule()

# 将Module中的所有参数传递给optimizer实例
# parameters方法不仅返回module中的Parameter实例
# 还递归返回子module中所有Parameter实例
optimizer = optim.SGD(model.parameters(), lr=0.5)

for epoch in range(epochs):
    # 该函数简单，实际就是设置为train模式
    # 对dropout、batchnorm等有用
    model.train()
    for xb, yb in train_dl:
        # loss_func通常是torch.nn.functional中定义的损失函数
        loss = loss_func(model(xb), yb)
        # 开始反向传播，计算梯度，保留在各个张量的tensor.grad里
        # 可以通过tensor.grad.data获得具体梯度值
        loss.backward()
        # 根据计算得到的梯度及优化器具体逻辑
        # 对参数值进行一次更新
        opt.step()
        # 梯度清零，避免累加
        opt.zero_grad()

你可能感兴趣的:(神经翻译笔记,pytorch)

[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
【安装环境】配置MMTracking环境 xuanyu22 安装环境机器学习神经网络深度学习 python
版本v0.14.0安装torchnumpy的版本不能太高，否则后面安装时会发生冲突。先安装numpy，因为pytorch的安装会自动配置高版本numpy。condainstallnumpy=1.21.5mmtracking支持的torch版本有限，需要找到合适的condainstallpytorch==1.11.0torchvision==0.12.0cudatoolkit=10.2-cpytor
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
Pyorch中 nn.Conv1d 与 nn.Linear 的区别迪三 #NN_Layer 神经网络
即一维卷积层和全联接层的区别nn.Conv1d和nn.Linear都是PyTorch中的层，它们用于不同的目的，主要区别在于它们处理输入数据的方式和执行的操作类型。nn.Conv1d通过应用滑动过滤器来捕捉序列数据中的局部模式，适用于处理具有时间或序列结构的数据。nn.Linear通过将每个输入与每个输出相连接，捕捉全局关系，适用于将输入数据作为整体处理的任务。1.维度与输入nn.Conv1d（一
图片中的上采样，下采样和通道融合(up-sample, down-sample, channel confusion) 迪三 #图像处理_PyTorch 计算机视觉深度学习人工智能
前言以conv2d为例（即图片），Pytorch中输入的数据格式为tensor，格式为:[N,C,W,H,W]第一维N.代表图片个数，类似一个batch里面有N张图片第二维C.代表通道数，在模型中输入如果为彩色，常用RGB三色图，那么就是3维，即C=3。如果是黑白的，即灰度图，那么只有一个通道，即C=1第三维H.代表图片的高度，H的数量是图片像素的列数第四维W.代表图片的宽度，W的数量是图片像素的
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
天下苦英伟达久矣！PyTorch官方免CUDA加速推理，Triton时代要来？诗者才子酒中仙物联网 /互联网 /人工智能 /其他 pytorch 人工智能 python
在做大语言模型（LLM）的训练、微调和推理时，使用英伟达的GPU和CUDA是常见的做法。在更大的机器学习编程与计算范畴，同样严重依赖CUDA，使用它加速的机器学习模型可以实现更大的性能提升。虽然CUDA在加速计算领域占据主导地位，并成为英伟达重要的护城河之一。但其他一些工作的出现正在向CUDA发起挑战，比如OpenAI推出的Triton，它在可用性、内存开销、AI编译器堆栈构建等方面具有一定的优势
pytorch安装(windows) m0_62244898 windows 人工智能
（1）下载pycharmPyCharm:thePythonIDEforProfessionalDevelopersbyJetBrains(2)下载anacondaAnaconda|TheWorld'sMostPopularDataSciencePlatform(3)创建一个新环境：torchcondacreate-ntorch-y(4)进入新环境condaactivatetorch(5)加入清华源
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
【ShuQiHere】小白也能懂的 TensorFlow 和 PyTorch GPU 配置教程 ShuQiHere tensorflow pytorch 人工智能
【ShuQiHere】在深度学习中，GPU的使用对于加速模型训练至关重要。然而，对于许多刚刚入门的小白来说，如何在TensorFlow和PyTorch中指定使用GPU进行训练可能会感到困惑。在本文中，我将详细介绍如何在这两个主流的深度学习框架中指定使用GPU进行训练，并确保每一个步骤都简单易懂，跟着我的步骤来，你也能轻松上手！1.安装所需库首先，确保你已经安装了TensorFlow或PyTorch
解决ModuleNotFoundError: No module named ‘torch的方法梅菊林各种问题解决方案开发语言
ModuleNotFoundError:Nomodulenamed‘torch’错误是Python在尝试导入名为torch的模块时找不到该模块而抛出的异常。torch是PyTorch深度学习框架的核心库，如果你的Python环境中没有安装这个库，尝试导入时就会遇到这个错误。文章目录报错问题报错原因解决方法报错问题当你尝试在Python脚本或交互式环境中执行以下命令时：importtorch如果Py
Python中item()和items()的用处 ~|Bernard| 深度学习疑点总结 python pytorch 深度学习
item()区别一:在pytorch训练时，一般用到.item()。比如loss.item()。我们可以做个简单测试代码看看它的区别:importtorchx=torch.randn(2,2)print(x)print(x[1,1])print(x[1,1].item())运行结果:tensor([[-2.0743,0.1675],[0.7016,-0.6779]])tensor(-0.6779)
GPU版pytorch安装普通攻击往后拉 python tips 神经网络基础模型关键点
由于经常重装系统，导致电脑的环境需要经常重新配置，其中尤其是cudatorch比较难以安装，因此记录一下安装GPU版本torch的过程。1）安装CUDAtoolkit这个可以看做是N卡所有cuda计算的基础，一般都会随驱动的更新自动安装，但是不全，仍然需要安装toolkit，并不需要先看已有版本是哪个，反正下载完后会自动覆盖原有的cuda。下载网站两个：国内网站：只能下载最新的toolkit，但是
轻松升级：Ollama + OpenWebUI 安装与配置【AIStarter】 ai_xiaogui AI作画 AI软件人工智能 AI写作 AIStarter
Ollama是一个开源项目，用于构建和训练大规模语言模型，而OpenWebUI则提供了一个方便的前端界面来管理和监控这些模型。本文将指导你如何更新这两个工具，并顺利完成配置。准备工作确保你的系统已安装Git和Python环境。安装必要的依赖库，如TensorFlow或PyTorch等。更新步骤克隆项目：使用Git命令行工具克隆最新的Ollama和OpenWebUI仓库到本地。更新代码：确保你正在使
conda环境管理 Johnson0722 python python conda 环境管理
Anaconda使用软件包管理系统Conda进行包管理，为用户对不同版本、不同功能的工具包的环境进行配置和管理提供便利。来看一看使用conda来进行环境管理的基本命令创建环境创建一个名为test的python环境，指定python版本是3.7.3，并在test环境中安装pytorchcondacreate--nametestpython=3.7.3pytorch查看系统中的所有环境用户安装的不同环
R-Drop pytorch实现 warpin 深度学习深度学习 pytorch
Pytorch实现了R-Drop，可以用于训练分类模型。#-*-coding:utf-8-*-"""Description:AnimplementationofR-Drop(https://arxiv.org/pdf/2106.14448.pdf).Authors:lihpCreateDate:2021/8/24"""fromtorchimportnnfromtorch.nnimportfunct
Transformer模型：WordEmbedding实现 Galaxy.404 Transformer transformer 深度学习人工智能 embedding
前言最近在学Transformer，学了理论的部分之后就开始学代码的实现，这里是跟着b站的up主的视频记的笔记，视频链接：19、Transformer模型Encoder原理精讲及其PyTorch逐行实现_哔哩哔哩_bilibili正文首先导入所需要的包：importtorchimportnumpyasnpimporttorch.nnasnnimporttorch.nn.functionalasF关
如何使用Pytorch-Metric-Learning？鱼儿也有烦恼 PyTorch pytorch
文章目录如何使用Pytorch-Metric-Learning？1.Pytorch-Metric-Learning库9个模块的功能1.1Sampler模块1.2Miner模块1.3Loss模块1.4Reducer模块1.5Distance模块1.6Regularizer模块1.7Trainer模块1.8Tester模块1.9Utils模块2.如何使用PyTorchMetricLearning库中的
每天五分钟玩转深度学习框架PyTorch：获取神经网络模型的参数幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 神经网络人工智能模型参数 python
本文重点当我们定义好神经网络之后，这个网络是由多个网络层构成的，每层都有参数，我们如何才能获取到这些参数呢？我们将再下面介绍几个方法来获取神经网络的模型参数，此文我们是为了学习第6步（优化器）。获取所有参数Parametersfromtorchimportnnnet=nn.Sequential(nn.Linear(4,2),nn.Linear(2,2))print(list(net.paramet
一维数组 list 呢，怎么转换成 (批次句子长度特征值 )三维向量 python pytorch lstm 编程人工智能 zhangfeng1133 python pytorch 人工智能数据挖掘
一、介绍对于一维数组，如果你想将其转换成适合深度学习模型（如LSTM）输入的格式，你需要考虑将其扩展为三维张量。这通常涉及到批次大小（batchsize）、序列长度（sequencelength）和特征数量（numberoffeatures）的维度。以下是如何将一维数组转换为这种格式的步骤：###1.确定维度-**批次大小（BatchSize）**：这是你一次处理的样本数量。-**序列长度（Seq
每天五分钟玩转深度学习框架PyTorch：将nn的神经网络层连接起来幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 神经网络人工智能机器学习 python
本文重点前面我们学习pytorch中已经封装好的神经网络层，有全连接层，激活层，卷积层等等，我们可以直接使用。如代码所示我们直接使用了两个nn.Linear（），这两个linear之间并没有组合在一起，所以forward的之后，分别调用了，在实际使用中我们常常将几个神经层组合在一起，这样不仅操作方便，而且代码清晰。这里介绍一下Sequential()和ModuleList()，它们可以将多个神经网
项目实训十四 qq_51946537 项目实训 python
将pytorch模型封装成接口由于前面对于模型的构建、训练、评估都以完成，接下来要做的就是将按照项目要求，将模型封装成接口，供后端直接调用。我需要做的是后端直接调用系统命令pythonprase.py-img图片便可以直接得到解析结果。由于前面的测试模型的正确率都是批量处理过的图片，而现在前端只会传过来要解析的图片或者图片路径，而且图片也是未经处理过的，显然直接输入不会得到好的结果，并且性能也会比
pytorch矩阵乘法 weixin_45694975 pytorch 深度学习神经网络
一、torch.bmminput1shape:(batch_size,seq1_len,emb_dim)input2shape:(batch_size,emb_dim,seq2_len)outputshape:(batch_size,seq1_len,seq2_len)注意：torch.bmm只适合三维tensor做矩阵运算特别地，torch.bmm支持tenso广播运算input1shape:(
pytorch矩阵乘法总结 chenxi yan PyTorch 学习 pytorch 矩阵深度学习
1.element-wise（*）按元素相乘，支持广播，等价于torch.mul()a=torch.tensor([[1,2],[3,4]])b=torch.tensor([[2,3],[4,5]])c=a*b#等价于torch.mul(a,b)#tensor([[2,6],#[12,20]])a*torch.tensor([1,2])#广播,等价于torch.mul(a,torch.tensor
推荐开源项目：PyTorch-Metric-Learning 潘惟妍
推荐开源项目：PyTorch-Metric-Learningpytorch-metric-learningTheeasiestwaytousedeepmetriclearninginyourapplication.Modular,flexible,andextensible.WritteninPyTorch.项目地址:https://gitcode.com/gh_mirrors/py/pytorc
pytroch2.4 提示到不到fbgemm.dll bziyue python pytorch
#python/pytorch/问题记录```>>>importtorchTraceback(mostrecentcalllast):File"",line1,inFile"C:\Users\95416\AppData\Local\Programs\Python\Python312\Lib\site-packages\torch\__init__.py",line148,inraiseerrOSE
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

神经翻译笔记5扩展d. PyTorch学习笔记

文章目录

神经翻译笔记5扩展d. PyTorch学习笔记

PyTorch与张量

自动微分

简介

示例

进一步的数学解释

示例2. “冷冻”某个子图以微调预训练模型

使用PyTorch定义一个神经网络

定义网络

损失函数和参数更新

常用的PyTorch包及其连携

torch.utils.data.Dataset

torch.utils.data.DataLoader

torch.optim

torch.nn

构造函数

成员变量的设置

parameters()

forward()和__call__

结语

你可能感兴趣的:(神经翻译笔记,pytorch)

`torch.utils.data.Dataset`

`torch.utils.data.DataLoader`

`torch.optim`

`torch.nn`

`parameters()`

`forward()`和`call`