wohu1104

PyTorch 笔记（13）— autograd（0.4 之前和之后版本差异）、Tensor（张量）、Gradient（梯度）

1. 背景简述

torch.autograd 是 PyTorch 中方便用户使用，专门开发的一套自动求导引擎，它能够根据输入和前向传播过程自动构建计算图，并执行反向传播。

计算图是现代深度学习框架 PyTorch、TensorFlow 等的核心，它为自动求导算法——反向传播提供了理论支持。

PyTorch 的 Autograd 模块实现了深度学习的算法中的反向传播求导数，在张量（Tensor 类）上的所有操作，Autograd 都能为他们自动提供微分，简化了手动计算导数的复杂过程。

在 0.4 以前的版本中，Pytorch 使用 Variable 类来自动计算所有的梯度。

从 0.4 起， Variable 正式合并入 Tensor 类，通过 Variable 嵌套实现的自动微分功能已经整合进入了Tensor 类中。虽然为了代码的兼容性还是可以使用 Variable(tensor) 这种方式进行嵌套，但是这个操作其实什么都没做。

所以，以后的代码建议直接使用 Tensor 类进行操作，因为官方文档中已经将 Variable 设置成过期模块。

要想通过 Tensor 类本身就使用 autograd 功能，只需要设置 .requries_grad=True

Variable 类中的的 grad 和 grad_fn 属性已经整合进入了 Tensor 类中。

关于反向传播的基础，请参考：浅显易懂的计算图

2. autograd（PyTorch 0.4 之前版本）

PyTorch 在 autograd 模块中实现了计算图的相关功能，autograd 的核心数据结构是 Variable 。

Variable 封装了 tensor，并记录对 tensor 的操作记录用来构建计算图。

Variable 的数据结构如下图所示，主要包含三个属性：

data : 保存 Variable 所包含的 tensor；
grad：保存 data 对应的梯度，grad 也是 variable 而非 tensor，与 data形状一致；
grad_fn：指向一个 Function，这个 Function 用来反向传播计算输入的梯度，记录 variable 的操作历史，即它是什么操作的输出，用来构建计算图。如果某一个变量是由用户创建的，则它为叶子节点，对应的 grad_fn 为 None；

Variable 的构造函数需要传入 tensor，同时有两个可选参数：

requires_grad（bool）：是否需要对该 variable 进行求导；
volatile（bool）：意为“挥发”，设置为 True ，构建在该 variable 上的图都不会求导，专为推理阶段设计；

早期 Variable 的创建是需要 tensor，类似这样：

In [8]: a = V(t.ones(3,4), requires_grad=True)

目前 Pytorch 的版本已经可以直接这样：

In [11]: b = t.ones(3,4).requires_grad_(True)

不区分 tensor 和 Variable ，Tensors/Variables 合并，弃用 volatile 标志，原来若 True ，在这之后的图都不会求导。

Variable 支持大部分的 tensor 支持的函数，但不支持部分 inplace 函数。因为这些操作会修改 tensor 自身，而在反向传播中，variable 需要缓存原来的 tensor 来计算梯度。如果想要计算各个 Variable 的梯度，只需调用根节点 variable 的 backward 方法，autograd 会自动沿着计算图反向传播，计算每一个叶子节点的梯度。

variable.backward(grad_variables=None, retain_graph=None, create_graph=None)

主要有如下参数：

grad_variables：形状与 variable 一致，对于 y.backward()，grad_variables 相当于链式法则 $\frac{\partial z}{\partial x}$ = $\frac{\partial z}{\partial y}$ $\frac{\partial y}{\partial x}$ 中的 $\frac{\partial z}{\partial y}$ ， grad_variables 也可以是 tensor 或序列。
retain_graph：反向传播需要缓存一些中间结果，反向传播之后，这些缓存就被清空，可通过指定这个参数不清空缓存，用来多次反向传播。
create_graph：对反向传播过程再次构建计算图，可通过 backward of backward 实现求高阶导数。

In [1]: import torch as t

In [2]: a = t.ones(3,4).requires_grad_(True)

In [3]: a
Out[3]: 
tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]], requires_grad=True)

In [4]: b = t.zeros(3,4)

In [5]: b
Out[5]: 
tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])

In [6]: c = a + b

In [7]: c
Out[7]: 
tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]], grad_fn=<AddBackward0>)

In [8]: d = c.sum()

In [9]: d
Out[9]: tensor(12., grad_fn=<SumBackward0>)

In [10]: d.backward()

In [11]: a.grad
Out[11]: 
tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])

In [12]: a.requires_grad
Out[12]: True

In [13]: b.requires_grad
Out[13]: False

此处虽然没有指定 c 需要求导，但 c 依赖于 a，而 a 需要求导因此 c 的 requires_grad 属性会自动设为True
In [14]: c.requires_grad
Out[14]: True

In [15]: a.is_leaf
Out[15]: True

In [16]: b.is_leaf
Out[16]: True

c 不是叶子节点
In [17]: c.is_leaf
Out[17]: False

3. autograd（PyTorch 0.4 之后版本）

3.1 Tensor（张量）

torch.Tensor 是这个包的核心类。如果设置它的属性 .requires_grad 为 True，那么它将会追踪对于该张量的所有操作。当完成计算后可以通过调用 .backward()，来自动计算所有的梯度。这个张量的所有梯度将会自动累加到 .grad 属性。

要阻止一个张量被跟踪历史，可以调用.detach() 方法将其与计算历史分离，并阻止它未来的计算记录被跟踪。

在张量创建时，通过设置 requires_grad=True 来告诉 Pytorch 需要对该张量进行自动求导，PyTorch 会记录该张量的每一步操作历史并自动计算，以下两种方法是等价的。

In [1]: import torch as t

In [2]: x = t.ones(2,2,requires_grad=True)

In [3]: a = t.ones(2,2).requires_grad_(True)

In [4]: a
Out[4]: 
tensor([[1., 1.],
        [1., 1.]], requires_grad=True)

In [5]: x
Out[5]: 
tensor([[1., 1.],
        [1., 1.]], requires_grad=True)

In [6]:

针对张量 x 做一次运算

In [6]: y = x + 2

In [7]: y
Out[7]: 
tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)

In [8]:

y 是计算的结果，而不是用户自己创建的，所以它有 grad_fn 属性。

x 是用户自己创建的，所以 grad_fn 为 None。

在张量进行操作后，grad_fn 已经被赋予了一个新的函数，这个函数引用了一个创建了这个 Tensor 类的Function 对象。 Tensor 和 Function 互相连接生成了一个非循环图，它记录并且编码了完整的计算历史。每个张量都有一个 .grad_fn 属性，如果这个张量是用户手动创建的那么这个张量的 grad_fn 是 None 。

In [8]: y.grad_fn
Out[8]: <AddBackward0 at 0x4bdce50>

In [10]: x.grad_fn

In [11]:

对 y 进行更多操作，z=3x²+12x+12，

In [11]: z = y*y*3

In [12]: z
Out[12]: 
tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>)

In [13]: z.mean()
Out[13]: tensor(27., grad_fn=<MeanBackward0>)

In [14]:

.requires_grad_(...) 原地改变了现有张量的 requires_grad 标志。如果没有指定的话，默认输入的这个标志是 False。

In [15]: a = t.randn(2,2)

In [16]: a = ((a*3) /(a-1))

In [17]: a.requires_grad
Out[17]: False

In [18]: a.requires_grad_(True)
Out[18]: 
tensor([[  0.6064, -11.8267],
        [  0.5640,   9.0712]], requires_grad=True)

In [19]: a.requires_grad
Out[19]: True

In [20]: b = (a*a).sum()

In [21]: b.grad_fn
Out[21]: <SumBackward0 at 0x100f7490>

In [22]:

3.2 Gradient（梯度）

为了防止跟踪历史记录(和使用内存），可以将代码块包装在

with torch.no_grad():

中。在评估模型时特别有用，因为模型可能具有 requires_grad = True 的可训练的参数，但是我们不需要在此过程中对他们进行梯度计算。

还有一个类对于 autograd 的实现非常重要：Function 。

Tensor 和 Function 互相连接并构建一个非循环图，它保存整个完整的计算过程的历史信息。每个张量都有一个 .grad_fn 属性，该属性引用了创建 Tensor自身的 Function 。(除非这个张量是用户手动创建的，即这个张量的 grad_fn 是 None )。

如果需要计算导数，可以在 Tensor上调用 .backward()。

如果 Tensor 是一个标量(即它包含一个元素的数据），则不需要为 backward()指定任何参数；
如果它有更多的元素，则需要指定一个 gradient 参数，该参数是形状匹配的张量；

3.2.1 简单自动求导

PyTorch 会自动追踪和记录对与张量的所有操作，当计算完成后调用 .backward() 方法自动计算梯度并且将计算结果保存到 grad 属性中。

如果 Tensor 类表示的是一个标量（即它包含一个元素的张量），则不需要为 backward() 指定任何参数，如下所示 out 是一个标量，因此 out.backward() 和 out.backward(torch.tensor(1.)) 等价。这种参数常出现在图像分类中的单标签分类，输出一个标量代表图像的标签。

因为对 y 进行更多操作后 z=3x²+12x+12，所以 out=z/4，

In [22]: out = z.mean()

In [23]: out
Out[23]: tensor(27., grad_fn=<MeanBackward0>)

In [24]: out.backward()

输出导数 d(out)/dx=x.grad

In [25]: x.grad
Out[25]: 
tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])

我们的得到的是一个数取值全部为 4.5 的矩阵。让我们来调用 out 张量 O。

3.2.2 复杂自动求导

如果 Tensor 类包含多个参数，则需要指定一个 gradient 参数，它是形状匹配的张量。

我们来看看 autograd 计算的导数和我们手动推导的导数的区别。以下函数

的导数为：

In [23]: def f(x):
    ...:     y = x**2 * t.exp(x)
    ...:     return y
    ...:     

In [24]: def gradf(x):
    ...:     dx = 2*x*t.exp(x) + x**2*t.exp(x)
    ...:     return dx
    ...:     

In [25]: x = t.randn(2,3).requires_grad()
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-25-95892a3a5546> in <module>
----> 1 x = t.randn(2,3).requires_grad()

TypeError: 'bool' object is not callable

In [26]: x = t.randn(2,3).requires_grad

In [27]: x
Out[27]: False

In [28]: x = t.randn(2,3).requires_grad_()

In [29]: x
Out[29]: 
tensor([[-0.9131, -0.8917,  0.4434],
        [-1.1244, -0.1586,  0.5543]], requires_grad=True)

In [30]: y = f(x)

In [31]: gradf(x)
Out[31]: 
tensor([[-0.3982, -0.4051,  1.6880],
        [-0.3198, -0.2492,  2.4649]], grad_fn=<AddBackward0>)

因为 y 不是一个标量，所以需要输入一个大小相同的张量作为参数，这里我们用 t.ones(y.size()) 函数根据 x 生成一个张量。

t.ones(y.size())

和

t.ones_like(y)

等价。

In [32]: y.backward
Out[32]: 
<bound method Tensor.backward of tensor([[0.3346, 0.3260, 0.3063],
        [0.4107, 0.0215, 0.5349]], grad_fn=<MulBackward0>)>

In [33]: y.backward(t.ones(y.size()))

In [34]: x.grad
Out[34]: 
tensor([[-0.3982, -0.4051,  1.6880],
        [-0.3198, -0.2492,  2.4649]])

In [35]:

可以看到自动求导和手动求导结果是相等的。

3.2.3 torch.no_grad()

我们可以使用 with torch.no_grad() 上下文管理器临时禁止对已设置 requires_grad=True 的张量进行自动求导。这个方法在测试集计算准确率的时候会经常用到，例如：

In [32]: x = t.ones(2,3, requires_grad=True)

In [33]: y = 2*x*x

In [34]: y.requires_grad
Out[34]: True

In [35]: with t.no_grad():
    ...:     print(y.requires_grad)
    ...:     
True

In [36]:

这块应该为 False，但不知道为啥实际测试是 True，带继续深入了解。

使用 .no_grad() 进行嵌套后，代码不会跟踪历史记录，也就是说保存的这部分记录会减少内存的使用量并且会加快少许的运算速度。

3.3 Autograd 过程

当我们执行 z.backward() 的时候。这个操作将调用 z 里面的 grad_fn 这个属性，执行求导的操作。
这个操作将遍历 grad_fn 的 next_functions ，然后分别取出里面的 Function （AccumulateGrad），执行求导操作。这部分是一个递归的过程直到最后类型为叶子节点。
计算出结果以后，将结果保存到他们对应的 variable 这个变量所引用的对象（x 和 y）的 grad 这个属性里面。
求导结束。所有的叶节点的 grad 变量都得到了相应的更新

最终当我们执行完 z.backward() 之后，x 和 y 里面的 grad 值就得到了更新。

3. 扩展 Autograd

如果需要自定义 autograd 扩展新的功能，就需要扩展 Function 类。因为 Function 使用 autograd 来计算结果和梯度，并对操作历史进行编码。在 Function类 中最主要的方法就是 forward() 和 backward() 它们分别代表了前向传播和反向传播。

一个自定义的 Function 需要一下三个方法：

__init__ (optional)：如果这个操作需要额外的参数则需要定义这个 Function 的构造函数，不需要的话可以忽略。
forward()：执行前向传播的计算代码
backward()：反向传播时梯度计算的代码。参数的个数和 forward 返回值的个数一样，每个参数代表传回到此操作的梯度。

In [37]: 
    ...: # 引入Function便于扩展
    ...: from torch.autograd.function import Function

In [38]: # 定义一个乘以常数的操作(输入参数是张量)
    ...: # 方法必须是静态方法，所以要加上@staticmethod 
    ...: class MulConstant(Function):
    ...:     @staticmethod 
    ...:     def forward(ctx, tensor, constant):
    ...:         # ctx 用来保存信息这里类似self，并且ctx的属性可以在backward中调用
    ...:         ctx.constant=constant
    ...:         return tensor *constant
    ...:     @staticmethod
    ...:     def backward(ctx, grad_output):
    ...:         # 返回的参数要与输入的参数一样.
    ...:         # 第一个输入为3x3的张量，第二个为一个常数
    ...:         # 常数的梯度必须是 None.
    ...:         return grad_output, None
    ...:         

In [39]:

定义完我们的新操作后，我们来进行测试


In [40]: a=t.rand(3,3,requires_grad=True)

In [41]: a
Out[41]: 
tensor([[0.2859, 0.6373, 0.3489],
        [0.7932, 0.1416, 0.0118],
        [0.2317, 0.8374, 0.2620]], requires_grad=True)

In [42]: b=MulConstant.apply(a,5)

In [43]: b
Out[43]: 
tensor([[1.4294, 3.1866, 1.7447],
        [3.9661, 0.7079, 0.0591],
        [1.1584, 4.1870, 1.3099]], grad_fn=<MulConstantBackward>)

In [44]:

反向传播，返回值不是标量，所以 backward 方法需要参数。

In [45]: b.backward(t.ones_like(a))

In [46]: a.grad
Out[46]: 
tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])

In [47]:

参考：

https://github.com/zergtant/pytorch-handbook/blob/master/chapter2/2.1.2-pytorch-basics-autograd.ipynb
https://pytorch.apachecn.org/docs/1.4/blitz/autograd_tutorial.html

你可能感兴趣的:(PyTorch)

【图像超分】论文复现：密集残差链接Transformer！DRCT的Pytorch源码复现，跑通超分源码，获得指标、模型复杂度、结果可视化，核心模块拆解与源码对应，注释详细！十小大超分辨率重建（理论+实战科研+应用）pytorch 深度学习超分辨率重建图像处理计算机视觉 python transformer
请先看【专栏介绍文章】：【超分辨率（Super-Resolution）】关于【超分辨率重建】专栏的相关说明，包含专栏简介、专栏亮点、适配人群、相关说明、阅读顺序、超分理解、实现流程、研究方向、论文代码数据集汇总等）完整代码和训练好的模型权重文件下载链接见本文底部，订阅专栏免费获取！本文亮点：跑通DRCT源码，获得与论文一致的PSNR/SSIM、Params、超分可视化结果，修正论文中FLOPs的计
【Torch】nn.Embedding算法详解油泼辣子多加深度学习 embedding 算法
1.定义nn.Embedding是PyTorch中的查表式嵌入层（lookup‐table），用于将离散的整数索引（如词ID、实体ID、离散特征类别等）映射到一个连续的、可训练的低维向量空间。它通过维护一个形状为(num_embeddings,embedding_dim)的权重矩阵，实现高效的“索引→向量”转换。2.输入与输出输入类型：整型张量（torch.long或torch.int64），必须
【pytorch】——Could not export Python function call ‘Scatter‘
pytorch用pytorch的trace导出模型的时候，报错errorRuntimeError:CouldnotexportPythonfunctioncall'Scatter'.RemovecallstoPythonfunctionsbeforeexport.Didyouforgettoadd@scriptor@script_methodannotation?Ifthisisann.Modul
Pytorch实现DenseNet，腾讯T3大牛手把手教你
print("TorchvisionVersion:",torchvision.version)all=[‘DenseNet121’,‘DenseNet169’,‘DenseNet201’,‘DenseNet264’]defConv1(in_planes,places,stride=2):returnnn.Sequential(nn.Conv2d(in_channels=in_planes,out
Pytorch实现DenseNet，先收藏了
classDenseNet(nn.Module):definit(self,init_channels=64,growth_rate=32,blocks=[6,12,24,16],num_classes=1000):super(DenseNet,self).init()bn_size=4drop_rate=0self.conv1=Conv1(in_planes=3,places=init_chan
Pytorch 之torch.nn初探 torch.nn.Module与线性--Linear layers 十有久诚人工智能机器学习 pytorch
初探torch.nn.Module神经网络可以使用torch.nn包构建。它提供了几乎所有与神经网络相关的功能，例如：线性图层nn.Linear，nn.Bilinear卷积层nn.Conv1d，nn.Conv2d，nn.Conv3d，nn.ConvTranspose2d非线性nn.Sigmoid，nn.Tanh，nn.ReLU，nn.LeakyReLU池化层nn.MaxPool1d，nn.Aver
深入解析VAE：从理论到PyTorch实战，一步步构建你的AI“艺术家” 电脑能手人工智能深度学习 python
摘要：你是否好奇AI如何“凭空”创造出从未见过的人脸或画作？变分自编码器（VAE）就是解开这一谜题的关键钥匙之一。本文将带你从零开始，深入浅出地剖析VAE的迷人世界。我们将用生动的比喻解释其核心思想，拆解其背后的数学原理（KL散度与重参数技巧），并最终用PyTorch代码手把手地构建、训练和可视化一个完整的VAE模型。无论你是初学者还是有一定经验的开发者，相信这篇文章都能让你对生成模型有一个全新的
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别大家好！欢迎来到我的深度学习博客！对于每个踏入计算机视觉领域的人来说，MNIST手写数字识别就像是编程世界的“Hello,World!”。它足够简单，能够让我们快速上手；也足够完整，可以帮我们走通一个深度学习项目的全流程。之前我们可能用Keras体验过“搭积木”式的快乐，今天，我们将换一个同样强大且灵活的框架——PyTorch，
Pytorch：nn.Linear中是否自动应用softmax函数浩瀚之水_csdn 深度学习目标检测 #Pytorch框架 pytorch 人工智能 python
在本文中，我们将介绍Pytorch中的nn.Linear模块以及它是否自动应用softmax函数。nn.Linear是Pytorch中用于定义线性转换的模块，常用于神经网络的全连接层。一、什么是nn.Linearnn.Linear是PyTorch中的一个类，它是实现线性变换的模块。nn.Linear的主要作用是将输入张量和权重矩阵相乘，再添加偏置，生成输出张量。我们来看一个简单的示例，展示如何使用
【Pytorch学习笔记（三）】张量的运算（2）
一、引言在《张量的运算(1)》中我们已经学习了几种张量中常用的非算数运算如张量的索引与切片，张量的拼接等。本节我们继续学习张量的算术运算。二、张量的算术运算（一）对应元素的加减乘除在PyTorch中，张量的对应元素的算术运算包括加法、减法、乘法、除法等常见的数学运算。这些运算可以对张量进行逐元素操作（element-wise），也可以进行张量之间的广播运算（broadcasting）。1.逐元素操
【零基础学AI】第22讲：PyTorch入门 - 动态图计算与图像分类器实战 1989 0基础学AI 人工智能 pytorch python 机器学习 sklearn 深度学习
本节课你将学到理解PyTorch的核心概念和优势掌握张量(Tensor)的基本操作学会使用动态计算图构建神经网络实现一个完整的图像分类器项目训练模型并进行预测开始之前环境要求Python3.8+建议使用GPU（可选，CPU也能运行）内存：至少4GB需要安装的包#CPU版本（推荐新手）pipinstalltorchtorchvisionmatplotlibpillow#GPU版本（如果有NVIDIA
YOLO 推理部署全方案」：一文掌握部署方式与性能对比！要努力啊啊啊计算机视觉 YOLO 目标跟踪计算机视觉目标检测人工智能
YOLO的推理部署方法全景指南YOLO系列模型经过训练后，通常需要部署到线上环境中进行推理（inference）。下面是常见的YOLO推理部署方式：1️⃣PyTorch原生部署使用原始PyTorch模型.pt文件直接调用model(input)进行推理✅优点：简单、灵活、易于调试❌缺点：推理速度较慢，不适合生产环境2️⃣ONNX导出+推理将YOLO模型导出为.onnx格式使用ONNXRuntime
【Python训练营打卡】day33 @浙大疏锦行 2301_77865880 MyPython训练营打卡 python
DAY33简单的神经网络知识点回顾：1.PyTorch和cuda的安装2.查看显卡信息的命令行命令（cmd中使用）3.cuda的检查4.简单神经网络的流程a.数据预处理（归一化、转换成张量）b.模型的定义i.继承nn.Module类ii.定义每一个层iii.定义前向传播流程c.定义损失函数和优化器d.定义训练流程e.可视化loss过程预处理补充：注意事项：1.分类任务中，若标签是整数（如0/1/2
Pytorch框架下基于LSTM、GRU和TCN的心跳信号分类识别研究 babyai997 python 人工智能目标跟踪
Pytorch框架下基于LSTM、GRU和TCN的心跳信号分类识别研究摘要本文主要介绍了心跳信号的基础知识，包括心跳信号的产生机制、特点分析以及采集与处理方法。文章详细阐述了PyTorch框架在心跳信号分类识别中的应用，包括LSTM、GRU和TCN等模型的原理及实现。通过设计合理的实验方案，对不同模型在心跳信号分类识别任务中的性能进行了对比分析，发现GRU模型在计算效率和性能之间取得了较好平衡，而
PyTorch实战（13）——WGAN详解与实现盼小辉丶 pytorch 人工智能 python
PyTorch实战（13）——WGAN详解与实现0.前言1.WGAN与梯度惩罚2.WGAN工作原理2.1Wasserstein损失2.2Lipschitz约束2.3强制Lipschitz约束3.实现WGAN3.1数据加载与处理3.2模型构建3.3模型训练小结系列链接0.前言生成对抗网络(GenerativeAdversarialNetwork,GAN)模型训练过程通常会面临一些问题，如模式崩溃(生
深度学习×第4卷：Pytorch实战——她第一次用张量去拟合你的轨迹 Gyoku Mint AI修炼日记人工智能人工智能聚类算法深度学习 python 神经网络 pytorch
【开场·她画出的第一条直线是为了更靠近你】猫猫：“之前她只能在你身边叠叠张量，偷偷找梯度……现在，她要试试，能不能用这些线，把你的样子画出来喵～”狐狐：“这是她第一次把张量、自动微分和优化器都串成一条线，用最简单的线性回归，试着把你留给她的点都连起来。”【第一节·她先要一条路：生成一组可学的数据】✏️为什么要造数据？在PyTorch里跑线性回归，最好的练习就是用一条已知斜率的“理想直线”，加上一点
【第三章:神经网络原理详解与Pytorch入门】01.神经网络算法理论详解与实践-(4)神经网络中的重要组件
第三章:神经网络原理详解与Pytorch入门第一部分：神经网络算法理论详解与实践第四节：神经网络中的重要组件内容：激活函数、loss函数、dropout、梯度消失与爆炸、过拟合与欠拟合神经网络的性能依赖于多个关键组件的合理设计与使用。理解这些组件有助于构建更加稳健且高效的模型。一、激活函数（ActivationFunction）【深度学习】关键技术-激活函数（ActivationFunctions
《深度学习》—— PyTorch的介绍及PyTorch的CPU版本安装张小生180 人工智能深度学习 pytorch
文章目录一、PyTorch的简单介绍二、pytorch的CPU版本安装三、torch、torchvision、torchaudio三个库的介绍一、PyTorch的简单介绍PyTorch是一个由FacebookAI实验室开发的深度学习框架，它基于Python，并提供了高效的GPU加速和灵活的模型定义能力。1.PyTorch的基本特点动态计算图：PyTorch采用动态计算图的方式，这意味着计算图是在运
PyTorch实战：从零开始构建CIFAR-10图像分类模型 (附详细代码与图解) 电脑能手 pytorch 分类人工智能深度学习 python
PyTorch实战：从零开始构建CIFAR-10图像分类模型(附详细代码与图解)大家好！今天，我们将一起踏上一段激动人心的深度学习之旅：使用强大的PyTorch框架，从零开始构建一个卷积神经网络（CNN），来解决经典的CIFAR-10图像分类问题。无论你是深度学习的新手，还是希望巩固PyTorch基础知识的开发者，本文都将为你提供一个清晰、详尽的实战指南。本文目标读完本文，你将学会：加载和预处理C
如何使用 PyTorch Lightning 保存和加载检查点喝过期的拉菲 PyTorch Lightning pytorch 人工智能 Lighting
【PL基础】如何保存和加载检查点1.什么是检查点(checkpoint)？2.检查点有哪些内容3.如何保存检查点4.如何加载检查点5.保存超参数6.nn.Module的检查点7.禁用checkpointing8.恢复训练状态1.什么是检查点(checkpoint)？当模型进行训练时，性能会随着它继续看到更多数据而发生变化。最佳实践是在整个训练过程中保存模型的状态。这将在模型开发过程中的每个关键
Pytorch Lightning使用：【LightningModule、LightningDataModule、Trainer、ModelCheckpoint】 LeapMay pytorch lightning pytorch python 人工智能
pytorchlightning官方手册pytorchlightning官方手册Welcometo⚡PyTorchLightning—PyTorchLightning2.1.0devdocumentationhttps://lightning.ai/docs/pytorch/latest/PytorchLightning简介PyTorchLightning是面向专业AI研究人员和机器学习工程师的深
使用Ray实现的分布式PyTorch Lightning训练刘瑛蓉
使用Ray实现的分布式PyTorchLightning训练ray_lightningPytorchLightningDistributedAcceleratorsusingRay项目地址:https://gitcode.com/gh_mirrors/ra/ray_lightning项目简介ray_lightning是一个不再维护的项目，现在已被【RayTrain】取代，它提供了将PyTorchLi
【PyTorch】PyTorch中张量(Tensor)微分操作咸鱼鲸 PyTorch pytorch 人工智能 python
PyTorch深度学习总结第六章PyTorch中张量(Tensor)微分操作文章目录PyTorch深度学习总结前言一、torch.autograd模块二、主要功能和使用方法1.张量的requires_grad属性2.backward()方法3.torch.no_grad()上下文管理器三、函数总结前言上文介绍了PyTorch中张量(Tensor)的计算操作，本文将介绍张量的微分(torch.aut
Ubuntu22.04安装CUDA12.1 cuDNN8.9.7 pytorch2.2.2 快乐的笨笨 linux
当前安装的电脑配置:电脑名称：暗影精灵5系统名称：Ubuntu22.04.4LTS操作系统类型：64位内存：8.0Gib处理器：Intel®Core™[email protected]显卡：NVIDIACorporationTU117M[GeForceGTX1650Mobile/Max-Q]MesaI...安装前准备：需要安装对应的NVIDIA驱动程序、配置CUDA依赖环境g++gccm
Deep Global Registration 代码环境配置(rtx3090+python3.8+cuda11.1+pytorch1.7+MinkowskiEngine0.5.1) JPy646 pytorch 深度学习神经网络
前言踩过的坑：因为rtx3090最低算力是8.6，似乎不支持过低版本的cuda。试过pytorch1.7.0+cuda11.0，但会报错，由于cuda11.0支持的最高算力达不到rtx最低的要求。但配置pytorch1.8时DGR的代码运行时会报错。对于没有这个烦恼的还是推荐安装python3.6+cuda10.2+pytorch1.6+MinkowskiEngine0.4.3,这个配置无需改动代
RTX50系显卡+CUDA+torch+python对应关系
前言本人的显卡是RTX5070，使用时发现它对CUDA、torch和python版本有要求，试图按照老项目的依赖文件进行安装发现安不了，因此记录一下（截至2025年6月）。提示：以下是本篇文章正文内容，下面案例可供参考一、RTX50系显卡只能使用CUDA12.8二、目前只支持torch2.7.0和2.7.11.去pytorch官网的https://download.pytorch.org/whl/
PyTorch-Llama: 从零开始实现LLaMA 2模型教程乔昕连
PyTorch-Llama:从零开始实现LLaMA2模型教程pytorch-llamaLLaMA2implementedfromscratchinPyTorch项目地址:https://gitcode.com/gh_mirrors/py/pytorch-llama1.项目介绍PyTorch-Llama是一个在PyTorch平台上完全从零开始实现的LLaMA2模型仓库。该模型是一个强大的自回归语言模
pytorch小记（二十六）：全面解读 PyTorch 的 `torch.matmul`
pytorch小记（二十六）：全面解读PyTorch的`torch.matmul`PyTorch中的`torch.matmul`详解与使用指南一、什么是`torch.matmul`二、基本用法示例1.向量点积（1-D×1-D）2.二维矩阵乘法（2-D×2-D）3.批量矩阵乘法（≥3-D）4.向量与矩阵混合三、与`mm`、`bmm`的区别四、性能与数值稳定性五、典型应用场景六、注意事项七、总结在深度
pytorch小记（二十七）：深入理解 PyTorch 中的 `.contiguous()`：内存布局与数据不变性
pytorch小记（二十七）：深入理解PyTorch中的`.contiguous`：内存布局与数据不变性深入理解PyTorch中的`.contiguous()`：内存布局与数据不变性一、张量连续性（contiguity）概念二、`.contiguous()`的作用三、`.contiguous()`是否改变数值？四、与`.clone()`的区别五、常见使用场景六、总结深入理解PyTorch中的.co
利用人名语言分类案例演示RNN、LSTM和GRU的区别（基于PyTorch） .30-06Springfield rnn lstm gru 分类人工智能 python pytorch
文章目录一、程序结构1.1程序整体结构1.2各模块功能关系流程图二、数据预处理模块详解2.1定义字符集和语言类别2.2读取数据2.3人名转换为one-hot编码张量2.4自定义数据集类2.5数据加载器三、模型定义模块详解3.1RNN模型3.2LSTM模型3.3GRU模型四、模型训练与测试模块详解4.1测试模型基本功能4.2模型训练主函数五、结果可视化与对比模块详解六、模型预测模块详解七、案例结果分
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag