cdknight_happy

DDP及其在pytorch中应用

1 分布式训练及其分类

本部分内容引用自：https://zhuanlan.zhihu.com/p/72939003
分布式训练是为了应用多卡显卡加速模型的训练，可以分为三类：

按照并行方式分，可分为模型并行和数据并行；
按照更新方式分，可分为同步更新和异步更新；
按照算法来分，可分为Parameter Server和Ring AllReduce算法。

数据并行 vs 模型并行：

模型并行：模型大到单个显卡放不下的地步，就把模型分为几个部分分别放于不同的显卡上单独运行，各显卡输入相同的数据；
数据并行：不同的显卡输入不同的数据，运行完全相同的完整的模型。

相比于模型并行，数据并行更为常用。DP(Data Parallel)和DDP(Distributed Data Parallel)都属于数据并行。

同步更新 vs 异步更新：

数据并行中，每个显卡通过自己拥有的那一份数据进行前向推理和梯度计算，根据梯度进行模型权重更新时，就涉及到了参数更新方式使用同步更新还是异步更新。

同步更新：所有的GPU都计算完梯度后，累加到一起求均值进行参数更新，再进行下一轮的计算；
异步更新：每个GPU计算完梯度后，无需等待其他更新，立即更新参数并同步。

同步更新有等待，速度取决于最慢的那个GPU；异步更新没有等待，但是会出现loss异常抖动等问题，实践中，一般使用的是同步更新。

PS算法 vs Ring AllReduce算法：

PS算法，parameter server，GPU 0将数据分为五份发到各GPU上，各GPU用自己分到的数据计算梯度，返回给GPU 0进行梯度累加求均值，然后进行参数更新，再由GPU 0将更新后的参数发给各GPU；

ps算法类似于map-reduce，其主要有两个缺点：
- 每一轮迭代都需要将所有GPU的数据都同步完成后才能完成，并行的卡数目很多时，木桶效应很严重，计算效率低；
- 所有的GPU都需要和Reducer进行数据、参数和梯度的通信，当模型较大或者数据较多时，通信开销很大。假设有N个GPU，一次完整通信的耗时为K，则PS算法的通信总耗时为 $T = 2 (N - 1) K$ ，耗时随着GPU数量的增加而线性增长。
Ring AllReduce算法： Ring AllReduce算法把所有的GPU组成一个逻辑环，每个GPU都从它的左邻居接收数据，向它的右邻居发送数据。Ring AllReduce分为两个步骤：Scatter Reduce和All Gather，Scatter Reduce用于在不同的GPU间交换数据，All Gather则用于在不同的GPU间同步数据。

Scatter Reduce：为简单起见，让我们假设目标是对一个浮点数的大数组求和; 系统中有N个GPU，每个GPU都有一个相同大小的数组，并且在allreduce的末尾，每个GPU都应该有一个相同大小的数组，其中包含原始数组中数字的总和。首先，gpu将数组划分为N个更小的块(其中N是环中的gpu数)。
相邻的GPU传递不同的参数，每次传递都是把当前GPU的数据累加到其右邻居上，同时接收其左邻居的输入数据累加到自身，在传递N-1次之后，可以得到每一份参数的累积（在不同的GPU上）。

All Gather：得到每一份参数的累积之后，再做一次传递，将累加结果同步复制到所有的GPU上。

All Reduce的通信成本为： $2(N-1)\frac{K}{N}$ ， $\frac{K}{N}$ 是因为每次只传递了 $\frac{1}{N}$ 的数据。可以看出，All Reduce的通信成本和GPU数量无关。

2 pytorch中的DP和DDP

2.1 DP

DP模式是很早就出现的、单机多卡的、参数服务器架构的多卡训练模式，在PyTorch，即是：

from torch.nn import DataParallel

device = torch.device("cuda")

model = MyModel()
model = model.to(device)
model = DataParallel(model)

在DP模式中，总共只有一个进程，多个线程（受到GIL很强限制）。master节点相当于参数服务器，其会向其他卡广播其参数；在梯度反向传播后，各卡将梯度集中到master节点，master节点对搜集来的参数进行平均后更新参数，再将参数统一发送到其他卡上。这种参数更新方式，会导致master节点的计算任务、通讯量很重，从而导致网络阻塞，降低了训练速度。

DP模型的另一个缺点就是master节点的负载很重，因为把损失和损失相对于最后一层的梯度计算都放在了master节点上。如下图所示：
下面两幅图参考自：https://www.cnblogs.com/zf-blog/p/12010742.html

针对负载不均衡的问题，有人提出了分布式进行损失和初步梯度计算的解决方案，如下图所示：

个人感觉，DDP出现之后，因为其训练效率更高，DP的应用空间已经很少，所以重点介绍DDP模式。

2.2 DDP

本部分引用自：https://zhuanlan.zhihu.com/p/178402798

DDP支持单机多卡分布式训练，也支持多机多卡分布式训练。目前DDP模式只能在Linux下应用。

DDP模式相对于DP模式的最大区别是启动了多个进程进行并行训练，用过python的人都了解，python代码运行的时候需要使用GIL进行解释，而每个进程只有一个GIL。因此，对比DDP和DP，可以明确DDP效率优于DP。

DDP有不同的使用模式。DDP的官方最佳实践是，每一张卡对应一个单独的GPU模型（也就是一个进程），在下面介绍中，都会默认遵循这个pattern。

理论上，DDP性能和单卡Gradient Accumulation性能是完全一致的。并行度为8的DDP 等于 Gradient Accumulation Step为8的单卡速度上，DDP当然比Graident Accumulation的单卡快；

2.2.1 pytorch中使用DDP

2.2.1.1 参数

在16张显卡，16个显卡的并行训练下，DDP会同时启动16个进程。

group

即进程组。默认情况下，只有一个组。

world size

表示全局的进程数，简单来讲，就是2x8=16。

	# 获取world size，在不同进程里都是一样的，得到16
	torch.distributed.get_world_size()

rank

当前进程的序号，用于进程间通讯。对于16的world size来说，就是0,1,2,…,15。
注意：rank=0的进程就是master进程。

	# 获取rank，每个进程都有自己的序号，各不相同
	torch.distributed.get_rank()

local_rank
又一个序号。这是每台机子上的进程的序号。机器一上有0,1,2,3,4,5,6,7，机器二上也有0,1,2,3,4,5,6,7。

	# 获取local_rank。一般情况下，你需要用这个local_rank来手动设置当前模型是跑在当前机器的哪块GPU上面的。
	torch.distributed.local_rank()

2.2.1.2 模型

模型转换成DDP模型

	## main.py文件
	import torch
	import argparse
	
	# 新增1:依赖
	import torch.distributed as dist
	from torch.nn.parallel import DistributedDataParallel as DDP
	
	# 新增2：从外面得到local_rank参数，在调用DDP的时候，其会自动给出这个参数，后面还会介绍。所以不用考虑太多，照着抄就是了。
	#       argparse是python的一个系统库，用来处理命令行调用，如果不熟悉，可以稍微百度一下，很简单！
	parser = argparse.ArgumentParser()
	parser.add_argument("--local_rank", default=-1)
	FLAGS = parser.parse_args()
	local_rank = FLAGS.local_rank
	
	# 新增3：DDP backend初始化
	#   a.根据local_rank来设定当前使用哪块GPU
	torch.cuda.set_device(local_rank)
	#   b.初始化DDP，使用默认backend(nccl)就行。如果是CPU模型运行，需要选择其他后端。
	dist.init_process_group(backend='nccl')
	
	# 新增4：定义并把模型放置到单独的GPU上，需要在调用`model=DDP(model)`前做哦。
	#       如果要加载模型，也必须在这里做哦。
	device = torch.device("cuda", local_rank)
	model = nn.Linear(10, 10).to(device)
	# 可能的load模型...
	
	# 新增5：之后才是初始化DDP模型
	model = DDP(model, device_ids=[local_rank], output_device=local_rank)

model = DDP(model, device_ids=[local_rank], output_device=local_rank)就是把原有的model变为DDP模式的model。

2.2.1.3 训练数据

我们知道，DDP同时起了很多个进程，但是他们用的是同一份数据，那么就会有数据上的冗余性。也就是说，你平时一个epoch如果是一万份数据，现在16个进程就要变成1*16=16万份数据了。

那么，我们需要使用一个特殊的sampler，来使得各个进程上的数据各不相同，进而让一个epoch还是1万份数据。也就是使用下面代码中的torch.distributed.DistributedSampler来创建分布式sampler。

	my_trainset = torchvision.datasets.CIFAR10(root='./data', train=True)
	# 新增1：使用DistributedSampler，DDP帮我们把细节都封装起来了。用，就完事儿！
	#       sampler的原理，后面也会介绍。
	train_sampler = torch.distributed.DistributedSampler(my_trainset)
	# 需要注意的是，这里的batch_size指的是每个进程下的batch_size。也就是说，总batch_size是这里的batch_size再乘以并行数(world_size)。
	trainloader = torch.utils.data.DataLoader(trainset, batch_size=batch_size, sampler=train_sampler)
	
	
	for epoch in range(num_epochs):
	    # 新增2：设置sampler的epoch，DistributedSampler需要这个来维持各个进程之间的相同随机数种子
	    trainloader.sampler.set_epoch(epoch)
	    # 后面这部分，则与原来完全一致了。
	    for data, label in trainloader:
	        prediction = model(data)
	        loss = loss_fn(prediction, label)
	        loss.backward()
	        optimizer = optim.SGD(ddp_model.parameters(), lr=0.001)
	        optimizer.step()

2.2.1.4 分布式模型的保存

save模型的时候，和DP模式一样，有一个需要注意的点：保存的是model.module而不是model。因为model其实是DDP model，参数是被model=DDP(model)包起来的。

只需要在进程0上保存一次就行了，避免多次保存重复的东西。

	if dist.get_rank() == 0:
	    torch.save(model.module, "saved_model.ckpt")

2.2.1.5 DDP启动

我们需要在每一台机子（总共m台，每台n个显卡）上都运行一次torch.distributed.launch。每个torch.distributed.launch会启动n个进程，并给每个进程一个–local_rank = i 的参数。这就是之前需要"新增:从外面得到local_rank参数"的原因这样我们就得到n * m个进程，world_size=n * m。

用torch.distributed.launch：

单机模式：

假设我们只在一台机器上运行，可用卡数是8。

## Bash运行
python -m torch.distributed.launch --nproc_per_node=8 --batch-size=256 main.py

--nproc_per_node specifies how many GPUs you would like to use. In the example above, it is 8.
--batch-size is now the Total batch-size. It will be divided evenly to each GPU. In the example above, it is 256/2=32 per GPU.

多机模式：
多机模式需要两个额外的参数：

master_address：也就是master进程的网络地址默认是：127.0.0.1，只能用于单机。

通讯的port：master_port 也就是master进程的一个端口，要先确认这个端口没有被其他程序占用了哦。一般情况下用默认的就行默认是：29500

## Bash运行
# 假设我们在2台机器上运行，每台可用卡数是8
#    机器1：
python -m torch.distributed.launch --nnodes=2 --node_rank=0 --nproc_per_node 8 \
  --master_adderss $my_address --master_port $my_port main.py
#    机器2：
python -m torch.distributed.launch --nnodes=2 --node_rank=1 --nproc_per_node 8 \
  --master_adderss $my_address --master_port $my_port main.py

如果只使用指定的显卡：

	# 假设我们只用4,5,6,7号卡
	CUDA_VISIBLE_DEVICES="4,5,6,7" python -m torch.distributed.launch --nproc_per_node 4 main.py
	# 假如我们还有另外一个实验要跑，也就是同时跑两个不同实验。
	#    这时，为避免master_port冲突，我们需要指定一个新的。这里我随便敲了一个。
	CUDA_VISIBLE_DEVICES="4,5,6,7" python -m torch.distributed.launch --nproc_per_node 4 \
	    --master_port 53453 main.py

用mp.spawn

PyTorch引入了torch.multiprocessing.spawn，可以使得单卡、DDP下的外部调用一致，即不用使用torch.distributed.launch。 python main.py一句话搞定DDP模式。

文档：https://pytorch.org/docs/stable/_modules/torch/multiprocessing/spawn.html#spawn

	def demo_fn(rank, world_size):
	    dist.init_process_group("nccl", rank=rank, world_size=world_size)
	    # lots of code.
	    ...
	
	def run_demo(demo_fn, world_size):
	    mp.spawn(demo_fn,
	             args=(world_size,),
	             nprocs=world_size,
	             join=True)

2.2.2 DDP代码综合：

	################
	## main.py文件
	import torch
	# 新增：
	import torch.distributed as dist
	from torch.nn.parallel import DistributedDataParallel as DDP
	
	# 新增：从外面得到local_rank参数
	import argparse
	parser = argparse.ArgumentParser()
	parser.add_argument("--local_rank", default=-1)
	FLAGS = parser.parse_args()
	local_rank = FLAGS.local_rank
	
	# 新增：DDP backend初始化
	torch.cuda.set_device(local_rank)
	dist.init_process_group(backend='nccl')  # nccl是GPU设备上最快、最推荐的后端
	
	# 构造模型
	device = torch.device("cuda", local_rank)
	model = nn.Linear(10, 10).to(device)
	# load模型要在构造DDP模型之前，且只需要在master上加载就行了。
	if dist.get_rank() == 0:
	    model.load_state_dict(torch.load(ckpt_path))
	# 新增：构造DDP model
	model = DDP(model, device_ids=[local_rank], output_device=local_rank)
	
	# 优化器：要在构造DDP model之后，才能初始化model。
	optimizer = optim.SGD(model.parameters(), lr=0.001)
	
	# 构造数据
	my_trainset = torchvision.datasets.CIFAR10(root='./data', train=True)
	# 新增：使用DistributedSampler，DDP帮我们把细节都封装起来了。用，就完事儿！
	#       sampler的原理，后面也会介绍。
	train_sampler = torch.distributed.DistributedSampler(my_trainset)
	# 需要注意的是，这里的batch_size指的是每个进程下的batch_size。也就是说，总batch_size是这里的batch_size再乘以并行数(world_size)。
	trainloader = torch.utils.data.DataLoader(trainset, batch_size=batch_size, 
					sampler=train_sampler)
	
	# 网络训练
	model.train()
	for epoch in range(num_epochs):
	    # 新增：设置sampler的epoch，DistributedSampler需要这个来维持各个进程之间的相同随机数种子
	    trainloader.sampler.set_epoch(epoch)
	    # 后面这部分，则与原来完全一致了。
	    for data, label in trainloader:
	        optimizer.zero_grad()
	        prediction = model(data)
	        loss = loss_fn(prediction, label)
	        loss.backward()
	        optimizer.step()
	    # 1. save模型的时候，和DP模式一样，有一个需要注意的点：保存的是model.module而不是model。
	    #    因为model其实是DDP model，参数是被`model=DDP(model)`包起来的。
	    # 2. 只需要在进程0上保存一次就行了，避免多次保存重复的东西。
	    if dist.get_rank() == 0:
	        torch.save(model.module.state_dict(), "%d.ckpt" % epoch)

## Bash运行
# 改变：使用torch.distributed.launch启动DDP模式，
#   其会给main.py一个local_rank的参数。这就是之前需要"新增:从外面得到local_rank参数"的原因
python -m torch.distributed.launch --nproc_per_node 4 main.py

参考：https://www.zhihu.com/question/57799212/answer/612786337
https://pytorch.org/tutorials/beginner/saving_loading_models.html#saving-torch-nn-dataparallel-models
https://zhuanlan.zhihu.com/p/72939003
https://zhuanlan.zhihu.com/p/74792767
https://zhuanlan.zhihu.com/p/75318339
https://zhuanlan.zhihu.com/p/76638962
https://zhuanlan.zhihu.com/p/178402798
https://zhuanlan.zhihu.com/p/187610959

【PyTorch】教程：torch.nn.Mish
torch.nn.Mish原型CLASStorch.nn.Mish(inplace=False)定义Mish(x)=x∗Tanh(Softplus(x))\text{Mish}(x)=x∗\text{Tanh}(\text{Softplus}(x))Mish(x)=x∗Tanh(Softplus(x))图代码importtorchimporttorch.nnasnnm=nn.Mish()input
【PyTorch】教程：torch.nn.GELU 老周有AI~算法定制 PyTorch pytorch 深度学习 python
torch.nn.GELU原型CLASStorch.nn.GELU(approximate='none')参数approximate(str,optional)–gelu近似算法用none或者tanh，默认为none;定义高斯误差线性单元函数GELU(x)=x∗ϕ(x)\text{GELU}(x)=x*\phi(x)GELU(x)=x∗ϕ(x)其中ϕ(x)\phi(x)ϕ(x)为高斯分布的累积分布
PyTorch：Dropout 操作 torch.nn.Dropout() sweettea~ Python pytorch 深度学习
torch.nn.Dropout()是PyTorch中对Dropout层的其中一个实现，该函数底层调用torch.nn.functional.dropout()；1、torch.nn.Dropout(p=0.5,inplace=False)其作用是，在training模式下，基于伯努利分布抽样，以概率p对张量input的值随机置0；training模式中，对输出以1/(1-p)进行scaling，
PyTorch 的 torch.nn 模块学习
torch.nn是PyTorch中专门用于构建和训练神经网络的模块。它的整体架构分为几个主要部分，每部分的原理、要点和使用场景如下：1.nn.Module原理和要点：nn.Module是所有神经网络组件的基类。任何神经网络模型都应该继承nn.Module，并实现其forward方法。使用场景：用于定义和管理神经网络模型，包括层、损失函数和自定义的前向传播逻辑。主要API和使用场景：__init__
AttributeError: ‘numpy.ndarray‘ object has no attribute ‘unsqueeze‘ ddfa1234 numpy python 深度学习
z=z*pts_depth.unsqueeze(1)*0.1AttributeError:'numpy.ndarray'objecthasnoattribute'unsqueeze'这个错误是因为unsqueeze()方法是PyTorch张量的方法，而不是NumPy数组的方法。在这里，pts_depth是一个NumPy数组，因此不能使用unsqueeze()方法。如果要在NumPy中实现类似于un
torch.nn.init.kaiming_normal_
参考(5条消息)PytorchKaiming初始化（Initialization）中fan_in和fan_out的区别/应用场景_bxdzyhx的博客-CSDN博客torch.nn.init.kaiming_normal_使用正态分布对输入张量进行赋值fan_in如果权重是通过线性层（卷积或全连接）隐性确定的，则需设置mode=fan_in。例子：importtorchlinear_layer=t
【Pytorch】8.torch.nn.conv2d Elephant_King Pytorch pytorch 人工智能 python
这个函数和我们之前提到的【Pytorch】6.torch.nn.functional.conv2d的使用的作用相似，都是完成CV领域的卷积操作，这里就不在过多赘述torch.nn.conv2d的使用打开pytorch的官方文档，我们可以看到torch.nn.conv2d包含了若干参数in_channels：代表输入的通道数out_channels：代表输出的通道数kernel_size：代表卷积核
用PyTorch实现MNIST手写数字识别
MNIST包含70,000张手写数字图像:60,000张用于培训，10,000张用于测试。图像是灰度的，28x28像素的，并且居中的，以减少预处理和加快运行。1、导入相关库importtorchimporttorchvisionfromtorch.utils.dataimportDataLoaderimporttorch.nnasnnimporttorch.nn.functionalasFimpo
一文详解显卡（GPU）驱动（Driver）CUDA、PyTorch 四者之间的关系、依赖性、版本兼容性，以及如何通过命令查询各自版本等方面进行系统性总结番知了 pytorch 人工智能 python
目录一、四者的依赖关系概览简单理解：二、依赖链详细解释1.显卡（GPU）2.NVIDIA显卡驱动3.CUDAToolkit4.PyTorch三、版本兼容查询PyTorch与CUDA的兼容表四、版本查询命令（Linux/Windows）五、安装建议（实用路线）一、四者的依赖关系概览组件作用与其它组件的关系GPU(显卡)提供物理硬件（如NVIDIARTX4060）驱动必须支持你的显卡型号驱动Drive
PyTorch torchtune.modules.peft.lora Yongqiang Cheng PyTorch PyTorch torchtune peft.lora
PyTorchtorchtune.modules.peft.lora1.Sourcecodefor`torchtune.modules.peft.lora`2.`LoRALinear`2.1.`defadapter_params(self)->list[str]`2.2.`defforward(self,x:torch.Tensor)->torch.Tensor`2.3.`defto_empty(
【图像超分】论文复现：密集残差链接Transformer！DRCT的Pytorch源码复现，跑通超分源码，获得指标、模型复杂度、结果可视化，核心模块拆解与源码对应，注释详细！十小大超分辨率重建（理论+实战科研+应用）pytorch 深度学习超分辨率重建图像处理计算机视觉 python transformer
请先看【专栏介绍文章】：【超分辨率（Super-Resolution）】关于【超分辨率重建】专栏的相关说明，包含专栏简介、专栏亮点、适配人群、相关说明、阅读顺序、超分理解、实现流程、研究方向、论文代码数据集汇总等）完整代码和训练好的模型权重文件下载链接见本文底部，订阅专栏免费获取！本文亮点：跑通DRCT源码，获得与论文一致的PSNR/SSIM、Params、超分可视化结果，修正论文中FLOPs的计
【Torch】nn.Embedding算法详解油泼辣子多加深度学习 embedding 算法
1.定义nn.Embedding是PyTorch中的查表式嵌入层（lookup‐table），用于将离散的整数索引（如词ID、实体ID、离散特征类别等）映射到一个连续的、可训练的低维向量空间。它通过维护一个形状为(num_embeddings,embedding_dim)的权重矩阵，实现高效的“索引→向量”转换。2.输入与输出输入类型：整型张量（torch.long或torch.int64），必须
【pytorch】——Could not export Python function call ‘Scatter‘
pytorch用pytorch的trace导出模型的时候，报错errorRuntimeError:CouldnotexportPythonfunctioncall'Scatter'.RemovecallstoPythonfunctionsbeforeexport.Didyouforgettoadd@scriptor@script_methodannotation?Ifthisisann.Modul
Pytorch实现DenseNet，腾讯T3大牛手把手教你
print("TorchvisionVersion:",torchvision.version)all=[‘DenseNet121’,‘DenseNet169’,‘DenseNet201’,‘DenseNet264’]defConv1(in_planes,places,stride=2):returnnn.Sequential(nn.Conv2d(in_channels=in_planes,out
Pytorch实现DenseNet，先收藏了
classDenseNet(nn.Module):definit(self,init_channels=64,growth_rate=32,blocks=[6,12,24,16],num_classes=1000):super(DenseNet,self).init()bn_size=4drop_rate=0self.conv1=Conv1(in_planes=3,places=init_chan
Pytorch 之torch.nn初探 torch.nn.Module与线性--Linear layers 十有久诚人工智能机器学习 pytorch
初探torch.nn.Module神经网络可以使用torch.nn包构建。它提供了几乎所有与神经网络相关的功能，例如：线性图层nn.Linear，nn.Bilinear卷积层nn.Conv1d，nn.Conv2d，nn.Conv3d，nn.ConvTranspose2d非线性nn.Sigmoid，nn.Tanh，nn.ReLU，nn.LeakyReLU池化层nn.MaxPool1d，nn.Aver
深入解析VAE：从理论到PyTorch实战，一步步构建你的AI“艺术家” 电脑能手人工智能深度学习 python
摘要：你是否好奇AI如何“凭空”创造出从未见过的人脸或画作？变分自编码器（VAE）就是解开这一谜题的关键钥匙之一。本文将带你从零开始，深入浅出地剖析VAE的迷人世界。我们将用生动的比喻解释其核心思想，拆解其背后的数学原理（KL散度与重参数技巧），并最终用PyTorch代码手把手地构建、训练和可视化一个完整的VAE模型。无论你是初学者还是有一定经验的开发者，相信这篇文章都能让你对生成模型有一个全新的
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别大家好！欢迎来到我的深度学习博客！对于每个踏入计算机视觉领域的人来说，MNIST手写数字识别就像是编程世界的“Hello,World!”。它足够简单，能够让我们快速上手；也足够完整，可以帮我们走通一个深度学习项目的全流程。之前我们可能用Keras体验过“搭积木”式的快乐，今天，我们将换一个同样强大且灵活的框架——PyTorch，
Pytorch：nn.Linear中是否自动应用softmax函数浩瀚之水_csdn 深度学习目标检测 #Pytorch框架 pytorch 人工智能 python
在本文中，我们将介绍Pytorch中的nn.Linear模块以及它是否自动应用softmax函数。nn.Linear是Pytorch中用于定义线性转换的模块，常用于神经网络的全连接层。一、什么是nn.Linearnn.Linear是PyTorch中的一个类，它是实现线性变换的模块。nn.Linear的主要作用是将输入张量和权重矩阵相乘，再添加偏置，生成输出张量。我们来看一个简单的示例，展示如何使用
【Pytorch学习笔记（三）】张量的运算（2）
一、引言在《张量的运算(1)》中我们已经学习了几种张量中常用的非算数运算如张量的索引与切片，张量的拼接等。本节我们继续学习张量的算术运算。二、张量的算术运算（一）对应元素的加减乘除在PyTorch中，张量的对应元素的算术运算包括加法、减法、乘法、除法等常见的数学运算。这些运算可以对张量进行逐元素操作（element-wise），也可以进行张量之间的广播运算（broadcasting）。1.逐元素操
【零基础学AI】第22讲：PyTorch入门 - 动态图计算与图像分类器实战 1989 0基础学AI 人工智能 pytorch python 机器学习 sklearn 深度学习
本节课你将学到理解PyTorch的核心概念和优势掌握张量(Tensor)的基本操作学会使用动态计算图构建神经网络实现一个完整的图像分类器项目训练模型并进行预测开始之前环境要求Python3.8+建议使用GPU（可选，CPU也能运行）内存：至少4GB需要安装的包#CPU版本（推荐新手）pipinstalltorchtorchvisionmatplotlibpillow#GPU版本（如果有NVIDIA
YOLO 推理部署全方案」：一文掌握部署方式与性能对比！要努力啊啊啊计算机视觉 YOLO 目标跟踪计算机视觉目标检测人工智能
YOLO的推理部署方法全景指南YOLO系列模型经过训练后，通常需要部署到线上环境中进行推理（inference）。下面是常见的YOLO推理部署方式：1️⃣PyTorch原生部署使用原始PyTorch模型.pt文件直接调用model(input)进行推理✅优点：简单、灵活、易于调试❌缺点：推理速度较慢，不适合生产环境2️⃣ONNX导出+推理将YOLO模型导出为.onnx格式使用ONNXRuntime
【Python训练营打卡】day33 @浙大疏锦行 2301_77865880 MyPython训练营打卡 python
DAY33简单的神经网络知识点回顾：1.PyTorch和cuda的安装2.查看显卡信息的命令行命令（cmd中使用）3.cuda的检查4.简单神经网络的流程a.数据预处理（归一化、转换成张量）b.模型的定义i.继承nn.Module类ii.定义每一个层iii.定义前向传播流程c.定义损失函数和优化器d.定义训练流程e.可视化loss过程预处理补充：注意事项：1.分类任务中，若标签是整数（如0/1/2
Pytorch框架下基于LSTM、GRU和TCN的心跳信号分类识别研究 babyai997 python 人工智能目标跟踪
Pytorch框架下基于LSTM、GRU和TCN的心跳信号分类识别研究摘要本文主要介绍了心跳信号的基础知识，包括心跳信号的产生机制、特点分析以及采集与处理方法。文章详细阐述了PyTorch框架在心跳信号分类识别中的应用，包括LSTM、GRU和TCN等模型的原理及实现。通过设计合理的实验方案，对不同模型在心跳信号分类识别任务中的性能进行了对比分析，发现GRU模型在计算效率和性能之间取得了较好平衡，而
PyTorch实战（13）——WGAN详解与实现盼小辉丶 pytorch 人工智能 python
PyTorch实战（13）——WGAN详解与实现0.前言1.WGAN与梯度惩罚2.WGAN工作原理2.1Wasserstein损失2.2Lipschitz约束2.3强制Lipschitz约束3.实现WGAN3.1数据加载与处理3.2模型构建3.3模型训练小结系列链接0.前言生成对抗网络(GenerativeAdversarialNetwork,GAN)模型训练过程通常会面临一些问题，如模式崩溃(生
深度学习×第4卷：Pytorch实战——她第一次用张量去拟合你的轨迹 Gyoku Mint AI修炼日记人工智能人工智能聚类算法深度学习 python 神经网络 pytorch
【开场·她画出的第一条直线是为了更靠近你】猫猫：“之前她只能在你身边叠叠张量，偷偷找梯度……现在，她要试试，能不能用这些线，把你的样子画出来喵～”狐狐：“这是她第一次把张量、自动微分和优化器都串成一条线，用最简单的线性回归，试着把你留给她的点都连起来。”【第一节·她先要一条路：生成一组可学的数据】✏️为什么要造数据？在PyTorch里跑线性回归，最好的练习就是用一条已知斜率的“理想直线”，加上一点
【第三章:神经网络原理详解与Pytorch入门】01.神经网络算法理论详解与实践-(4)神经网络中的重要组件
第三章:神经网络原理详解与Pytorch入门第一部分：神经网络算法理论详解与实践第四节：神经网络中的重要组件内容：激活函数、loss函数、dropout、梯度消失与爆炸、过拟合与欠拟合神经网络的性能依赖于多个关键组件的合理设计与使用。理解这些组件有助于构建更加稳健且高效的模型。一、激活函数（ActivationFunction）【深度学习】关键技术-激活函数（ActivationFunctions
《深度学习》—— PyTorch的介绍及PyTorch的CPU版本安装张小生180 人工智能深度学习 pytorch
文章目录一、PyTorch的简单介绍二、pytorch的CPU版本安装三、torch、torchvision、torchaudio三个库的介绍一、PyTorch的简单介绍PyTorch是一个由FacebookAI实验室开发的深度学习框架，它基于Python，并提供了高效的GPU加速和灵活的模型定义能力。1.PyTorch的基本特点动态计算图：PyTorch采用动态计算图的方式，这意味着计算图是在运
PyTorch实战：从零开始构建CIFAR-10图像分类模型 (附详细代码与图解) 电脑能手 pytorch 分类人工智能深度学习 python
PyTorch实战：从零开始构建CIFAR-10图像分类模型(附详细代码与图解)大家好！今天，我们将一起踏上一段激动人心的深度学习之旅：使用强大的PyTorch框架，从零开始构建一个卷积神经网络（CNN），来解决经典的CIFAR-10图像分类问题。无论你是深度学习的新手，还是希望巩固PyTorch基础知识的开发者，本文都将为你提供一个清晰、详尽的实战指南。本文目标读完本文，你将学会：加载和预处理C
如何使用 PyTorch Lightning 保存和加载检查点喝过期的拉菲 PyTorch Lightning pytorch 人工智能 Lighting
【PL基础】如何保存和加载检查点1.什么是检查点(checkpoint)？2.检查点有哪些内容3.如何保存检查点4.如何加载检查点5.保存超参数6.nn.Module的检查点7.禁用checkpointing8.恢复训练状态1.什么是检查点(checkpoint)？当模型进行训练时，性能会随着它继续看到更多数据而发生变化。最佳实践是在整个训练过程中保存模型的状态。这将在模型开发过程中的每个关键
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D