易烫YCC

pytorch 绘制多个算法loss_PyTorch并行训练指南：单机多卡并行、混合精度、同步BN训练...

0 写在前面

这篇文章是我做实验室组会汇报的时候顺带整理的文档，在1-3部分参考了很多知乎文章，感谢这些大佬们的工作，所以先贴出Reference，本篇文章结合了这些内容，加上了我的一些理解，不足之处还请大家谅解，欢迎在评论区讨论。

Reference

NVIDIA/apexhttps://link.zhihu.com/?target=https%3A//github.com/NVIDIA/apex)

当代研究生应当掌握的并行训练方法(单机多卡https://zhuanlan.zhihu.com/p/98535650)

如何理解深度学习分布式训练中的large batch size与learning rate的关系？https://www.zhihu.com/question/64134994/answer/217813386)

Pytorch中的Distributed Data Parallel与混合精度训练(Apex)https://zhuanlan.zhihu.com/p/105755472

跨卡同步 Batch Normalizationhttps://zhuanlan.zhihu.com/p/40496177

1 为什么不用nn.DataParallel ?

1.1 最简单的并行方式

我们在训练时最常用的并行方式就是 nn.DataParallel 了，可以帮助我们(使用单进程控)将模型和数据加载到多个 GPU 中，控制数据在 GPU 之间的流动，协同不同 GPU 上的模型进行并行训练。

只需一行代码，就可以使用多卡进行训练，其中 device_ids 用于指定使用的GPU，output_device 用于指定汇总梯度的GPU是哪个：

model = nn.DataParallel(model.cuda(), device_ids=gpus, output_device=gpus[0])

训练模板：

# main.pyimport torchimport torch.distributed as distgpus = [0, 1, 2, 3]torch.cuda.set_device('cuda:{}'.format(gpus[0]))train_dataset = ...train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=...)model = ...model = nn.DataParallel(model.to(device), device_ids=gpus, output_device=gpus[0])optimizer = optim.SGD(model.parameters())for epoch in range(100):for batch_idx, (data, target) in enumerate(train_loader):images = images.cuda(non_blocking=True)target = target.cuda(non_blocking=True)...output = model(images)loss = criterion(output, target)...optimizer.zero_grad()loss.backward()optimizer.step()

1.2 nn.DataParallel 的缺点

在每个训练批次(batch)中，因为模型的权重都是在一个进程上先算出来然后再把他们分发到每个GPU上，所以网络通信就成为了一个瓶颈，而GPU使用率也通常很低。

2 多进程的 torch.distributed

2.1 介绍**

在 1.0 之后，官方终于对分布式的常用方法进行了封装，支持 all-reduce，broadcast，send 和 receive 等等。通过 MPI 实现 CPU 通信，通过 NCCL 实现 GPU 通信。官方也曾经提到用 DistributedDataParallel 解决 DataParallel 速度慢，GPU 负载不均衡的问题，目前已经很成熟了。

与 DataParallel 的单进程控制多 GPU 不同，在 distributed 的帮助下，我们只需要编写一份代码，torch 就会自动将其分配给n个进程，分别在n个 GPU 上运行。

和单进程训练不同的是，多进程训练需要注意以下事项：

在喂数据的时候，一个batch被分到了好几个进程，每个进程在取数据的时候要确保拿到的是不同的数据(

DistributedSampler)；

要告诉每个进程自己是谁，使用哪块GPU(

args.local_rank)；

在做BatchNormalization的时候要注意同步数据。

2.2 使用方式

2.2.1 启动方式的改变

在多进程的启动方面，我们不用自己手写 multiprocess 进行一系列复杂的CPU、GPU分配任务，PyTorch为我们提供了一个很方便的启动器 torch.distributed.lunch 用于启动文件，所以我们运行训练代码的方式就变成了这样：

CUDA_VISIBLE_DEVICES=0,1,2,3 python \-m torch.distributed.launch \--nproc_per_node=4 main.py

其中的 --nproc_per_node 参数用于指定为当前主机创建的进程数，由于我们是单机多卡，所以这里node数量为1，所以我们这里设置为所使用的GPU数量即可。

2.2.2 初始化

在启动器为我们启动python脚本后，会通过参数 local_rank 来告诉我们当前进程使用的是哪个GPU，用于我们在每个进程中指定不同的device：

def parse():parser = argparse.ArgumentParser()parser.add_argument('--local_rank', type=int, default=0)args = parser.parse_args()return argsdef main():args = parse()torch.cuda.set_device(args.local_rank)torch.distributed.init_process_group('nccl',init_method='env://')device = torch.device(f'cuda:{args.local_rank}')...

其中 torch.distributed.init_process_group 用于初始化GPU通信方式(NCCL)和参数的获取方式(env代表通过环境变量)

2.2.3 DataLoader

在读取数据的时候，我们要保证一个batch里的数据被均摊到每个进程上，每个进程都能获取到不同的数据，但如果我们手动去告诉每个进程拿哪些数据的话太麻烦了，PyTorch也为我们封装好了这一方法。

所以我们在初始化 data loader 的时候需要使用到 torch.utils.data.distributed.DistributedSampler 这个特性：

train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset)train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=..., sampler=train_sampler)

这样就能给每个进程一个不同的 sampler，告诉每个进程自己分别取哪些数据。

2.2.4 模型的初始化

和 nn.DataParallel 的方式一样，我们对于模型的初始化也是简单的一句话就行了

model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[args.local_rank])

2.2.5 同步BN

为什么要同步BN？https://zhuanlan.zhihu.com/p/40496177

现有的标准 Batch Normalization 因为使用数据并行(Data Parallel)，是单卡的实现模式，只对单个卡上对样本进行归一化，相当于减小了批量大小(batch-size)(详见BN工作原理部分)。对于比较消耗显存的训练任务时，往往单卡上的相对批量过小，影响模型的收敛效果。之前在我们在图像语义分割的实验中，Jerry和我就发现使用大模型的效果反而变差，实际上就是BN在作怪。跨卡同步 Batch Normalization 可以使用全局的样本进行归一化，这样相当于‘增大‘了批量大小，这样训练效果不再受到使用 GPU 数量的影响。最近在图像分割、物体检测的论文中，使用跨卡BN也会显著地提高实验效果，所以跨卡 BN 已然成为竞赛刷分、发论文的必备神器。

可惜 PyTorch 并没有为我们实现这一功能，在接下来的介绍中我们会在 apex 中看到这一功能。

2.3 汇总

至此，我们就可以使用 torch.distributed 给我们带来的多进程训练的性能提升了，汇总代码结果如下：

# main.pyimport torchimport argparseimport torch.distributed as distparser = argparse.ArgumentParser()parser.add_argument('--local_rank', default=-1, type=int,help='node rank for distributed training')args = parser.parse_args()dist.init_process_group(backend='nccl')torch.cuda.set_device(args.local_rank)train_dataset = ...train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset)train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=..., sampler=train_sampler)model = ...model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[args.local_rank])optimizer = optim.SGD(model.parameters())for epoch in range(100):for batch_idx, (data, target) in enumerate(train_loader):images = images.cuda(non_blocking=True)target = target.cuda(non_blocking=True)...output = model(images)loss = criterion(output, target)...optimizer.zero_grad()loss.backward()optimizer.step()

3 NVIDIA/apex 混合精度训练、并行训练、同步BN

3.1 介绍

注：需要使用到Volta结构的GPU，目前只有Tesla V100和TITAN V系列支持。

Apex 是 NVIDIA 开源的用于混合精度训练和分布式训练库。Apex 对混合精度训练的过程进行了封装，改两三行配置就可以进行混合精度的训练，从而大幅度降低显存占用，节约运算时间。此外，Apex 也提供了对分布式训练的封装，针对 NVIDIA 的 NCCL 通信库进行了优化。

什么是混合精度训练？https://zhuanlan.zhihu.com/p/79887894

混合精度训练是在尽可能减少精度损失的情况下利用半精度浮点数加速训练。它使用FP16即半精度浮点数存储权重和梯度。在减少占用内存的同时起到了加速训练的效果。

float16和float相比恰里，总结下来就是两个原因：内存占用更少，计算更快。

内存占用更少：这个是显然可见的，通用的模型 fp16 占用的内存只需原来的一半。memory-bandwidth 减半所带来的好处：

模型占用的内存更小，训练的时候可以用更大的batchsize。

模型训练时，通信量(特别是多卡，或者多机多卡)大幅减少，大幅减少等待时间，加快数据的流通。

计算更快：

目前的不少GPU都有针对 fp16 的计算进行优化。论文指出：在近期的GPU中，半精度的计算吞吐量可以是单精度的 2-8 倍；从下图我们可以看到混合精度训练几乎没有性能损失。

3.2 使用方式

3.2.1 混合精度

在混合精度训练上，Apex 的封装十分优雅。直接使用 amp.initialize 包装模型和优化器，apex 就会自动帮助我们管理模型参数和优化器的精度了，根据精度需求不同可以传入其他配置参数。

from apex import ampmodel, optimizer = amp.initialize(model, optimizer, opt_level='O1')

其中 opt_level 为精度的优化设置，O0(第一个字母是大写字母O)：

O0：纯FP32训练，可以作为accuracy的baseline；

O1：混合精度训练(推荐使用)，根据黑白名单自动决定使用FP16(GEMM, 卷积)还是FP32(Softmax)进行计算。

O2：“几乎FP16”混合精度训练，不存在黑白名单，除了Batch norm，几乎都是用FP16计算。

O3：纯FP16训练，很不稳定，但是可以作为speed的baseline；

3.2.2 并行训练

Apex也实现了并行训练模型的转换方式，改动并不大，主要是优化了NCCL的通信，因此代码和 torch.distributed 保持一致，换一下调用的API即可：

from apex import ampfrom apex.parallel import DistributedDataParallelmodel, optimizer = amp.initialize(model, optimizer, opt_level='O1')model = DistributedDataParallel(model, delay_allreduce=True)# 反向传播时需要调用 amp.scale_loss，用于根据loss值自动对精度进行缩放with amp.scale_loss(loss, optimizer) as scaled_loss:scaled_loss.backward()

3.2.3 同步BN

Apex为我们实现了同步BN，用于解决单GPU的minibatch太小导致BN在训练时不收敛的问题。

from apex.parallel import convert_syncbn_modelfrom apex.parallel import DistributedDataParallel# 注意顺序：三个顺序不能错model = convert_syncbn_model(UNet3d(n_channels=1, n_classes=1)).to(device)model, optimizer = amp.initialize(model, optimizer, opt_level='O1')model = DistributedDataParallel(model, delay_allreduce=True)

调用该函数后，Apex会自动遍历model的所有层，将BatchNorm层替换掉。

3.3 汇总

Apex的并行训练部分主要与如下代码段有关：

# main.pyimport torchimport argparseimport torch.distributed as distfrom apex.parallel import convert_syncbn_modelfrom apex.parallel import DistributedDataParallelparser = argparse.ArgumentParser()parser.add_argument('--local_rank', default=-1, type=int,help='node rank for distributed training')args = parser.parse_args()dist.init_process_group(backend='nccl')torch.cuda.set_device(args.local_rank)train_dataset = ...train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset)train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=..., sampler=train_sampler)model = ...model = convert_syncbn_model(model)model, optimizer = amp.initialize(model, optimizer)model = DistributedDataParallel(model, device_ids=[args.local_rank])optimizer = optim.SGD(model.parameters())for epoch in range(100):for batch_idx, (data, target) in enumerate(train_loader):images = images.cuda(non_blocking=True)target = target.cuda(non_blocking=True)...output = model(images)loss = criterion(output, target)optimizer.zero_grad()with amp.scale_loss(loss, optimizer) as scaled_loss:scaled_loss.backward()optimizer.step()

使用 launch 启动：

CUDA_VISIBLE_DEVICES=0,1,2,3 python \-m torch.distributed.launch \--nproc_per_node=4 main.py

4 多卡训练时的数据记录(TensorBoard、torch.save)

4.1 记录Loss曲线

在我们使用多进程时，每个进程有自己计算得到的Loss，我们在进行数据记录时，希望对不同进程上的Loss取平均(也就是 map-reduce 的做法)，对于其他需要记录的数据也都是一样的做法：

def reduce_tensor(tensor: torch.Tensor) -> torch.Tensor:rt = tensor.clone()distributed.all_reduce(rt, op=distributed.reduce_op.SUM)rt /= distributed.get_world_size()return rt# calculate lossloss = criterion(predict, labels)reduced_loss = reduce_tensor(loss.data)train_epoch_loss += reduced_loss.item()注意在写入TensorBoard的时候只让一个进程写入就够了：# TensorBoardif args.local_rank == 0:writer.add_scalars('Loss/training', {'train_loss': train_epoch_loss,'val_loss': val_epoch_loss}, epoch + 1)

4.2 torch.save

在保存模型的时候，由于是Apex混合精度模型，我们需要使用Apex提供的保存、载入方法(见Apex READMEhttps://github.com/NVIDIA/apex)：

# Save checkpointcheckpoint = {'model': model.state_dict(),'optimizer': optimizer.state_dict(),'amp': amp.state_dict()}torch.save(checkpoint, 'amp_checkpoint.pt')...# Restoremodel = ...optimizer = ...checkpoint = torch.load('amp_checkpoint.pt')model, optimizer = amp.initialize(model, optimizer, opt_level=opt_level)model.load_state_dict(checkpoint['model'])optimizer.load_state_dict(checkpoint['optimizer'])amp.load_state_dict(checkpoint['amp'])# Continue training...

5 多卡后的 batch_size 和 learning_rate 的调整

见：https://www.zhihu.com/question/64134994/answer/217813386

从理论上来说，lr = batch_size * base lr，因为 batch_size 的增大会导致你 update 次数的减少，所以为了达到相同的效果，应该是同比例增大的。

但是更大的 lr 可能会导致收敛的不够好，尤其是在刚开始的时候，如果你使用很大的 lr，可能会直接爆炸，所以可能会需要一些 warmup 来逐步的把 lr 提高到你想设定的 lr。

实际应用中发现不一定要同比例增长，有时候可能增大到 batch_size/2 倍的效果已经很不错了。

在我的实验中，使用8卡训练，则增大batch_size 8倍，learning_rate 4倍是差不多的。

6 完整代码示例(我用来训练3D U-Net的)

import osimport datetimeimport argparsefrom tqdm import tqdmimport torchfrom torch import distributed, optimfrom torch.utils.data import DataLoaderfrom torch.utils.data.distributed import DistributedSamplerfrom torch.utils.tensorboard import SummaryWriterfrom apex import ampfrom apex.parallel import convert_syncbn_modelfrom apex.parallel import DistributedDataParallelfrom models import UNet3dfrom datasets import IronGrain3dDatasetfrom losses import BCEDiceLossfrom eval import eval_nettrain_images_folder = '../../datasets/IronGrain/74x320x320/train_patches/images/'train_labels_folder = '../../datasets/IronGrain/74x320x320/train_patches/labels/'val_images_folder = '../../datasets/IronGrain/74x320x320/val_patches/images/'val_labels_folder = '../../datasets/IronGrain/74x320x320/val_patches/labels/'def parse():parser = argparse.ArgumentParser()parser.add_argument('--local_rank', type=int, default=0)args = parser.parse_args()return argsdef main():args = parse()torch.cuda.set_device(args.local_rank)distributed.init_process_group('nccl',init_method='env://')train_dataset = IronGrain3dDataset(train_images_folder, train_labels_folder)val_dataset = IronGrain3dDataset(val_images_folder, val_labels_folder)train_sampler = DistributedSampler(train_dataset)val_sampler = DistributedSampler(val_dataset)epochs = 100batch_size = 8lr = 2e-4weight_decay = 1e-4device = torch.device(f'cuda:{args.local_rank}')train_loader = DataLoader(train_dataset, batch_size=batch_size, num_workers=4,pin_memory=True, sampler=train_sampler)val_loader = DataLoader(val_dataset, batch_size=batch_size, num_workers=4,pin_memory=True, sampler=val_sampler)net = convert_syncbn_model(UNet3d(n_channels=1, n_classes=1)).to(device)optimizer = optim.Adam(net.parameters(), lr=lr, weight_decay=weight_decay)net, optimizer = amp.initialize(net, optimizer, opt_level='O1')net = DistributedDataParallel(net, delay_allreduce=True)scheduler = optim.lr_scheduler.MultiStepLR(optimizer, milestones=[25, 50, 75], gamma=0.2)criterion = BCEDiceLoss().to(device)if args.local_rank == 0:print(f'''Starting training:Epochs: {epochs}Batch size: {batch_size}Learning rate: {lr}Training size: {len(train_dataset)}Validation size: {len(val_dataset)}Device: {device.type}''')writer = SummaryWriter(log_dir=f'runs/irongrain/unet3d_32x160x160_BS_{batch_size}_{datetime.datetime.now()}')for epoch in range(epochs):train_epoch_loss = 0with tqdm(total=len(train_dataset), desc=f'Epoch {epoch + 1}/{epochs}', unit='img') as pbar:images = Nonelabels = Nonepredict = None# trainnet.train()for batch_idx, batch in enumerate(train_loader):images = batch['image']labels = batch['label']images = images.to(device, dtype=torch.float32)labels = labels.to(device, dtype=torch.float32)predict = net(images)# calculate lossloss = criterion(predict, labels)reduced_loss = reduce_tensor(loss.data)train_epoch_loss += reduced_loss.item()# optimizeoptimizer.zero_grad()with amp.scale_loss(loss, optimizer) as scaled_loss:scaled_loss.backward()optimizer.step()scheduler.step()# set progress barpbar.set_postfix(**{'loss (batch)': loss.item()})pbar.update(images.shape[0])train_epoch_loss /= (batch_idx + 1)# evalval_epoch_loss, dice, iou = eval_net(net, criterion, val_loader, device, len(val_dataset))# TensorBoardif args.local_rank == 0:writer.add_scalars('Loss/training', {'train_loss': train_epoch_loss,'val_loss': val_epoch_loss}, epoch + 1)writer.add_scalars('Metrics/validation', {'dice': dice,'iou': iou}, epoch + 1)writer.add_images('images', images[:, :, 0, :, :], epoch + 1)writer.add_images('Label/ground_truth', labels[:, :, 0, :, :], epoch + 1)writer.add_images('Label/predict', torch.sigmoid(predict[:, :, 0, :, :]) > 0.5, epoch + 1)if args.local_rank == 0:torch.save(net, f'unet3d-epoch{epoch + 1}.pth')def reduce_tensor(tensor: torch.Tensor) -> torch.Tensor:rt = tensor.clone()distributed.all_reduce(rt, op=distributed.reduce_op.SUM)rt /= distributed.get_world_size()return rtif __name__ == '__main__':main()

微算法科技（NASDAQ MLGO）开发基于量子搜索算法的多方量子密钥协议
随着量子信息技术的快速发展，传统加密技术面临量子计算带来的破解威胁。密码技术是网络安全的基石，而量子信息安全则使用基于量子物理和数据算法的密码技术，嵌套在网络的不同环节，提供额外的安全层。量子密钥分发（QKD）作为量子信息安全的核心技术之一，正在逐步走向实际应用。微算法科技（NASDAQMLGO）开发基于量子搜索算法的多方量子密钥协议，旨在提升信息安全水平。基于量子搜索算法的多方量子密钥协议是一种
（JAVA）基于TCP通信多人聊天系统 zzb1580 JAVA学习记录 java tcp/ip 开发语言后端
一、目标这个项目是一个基于TCP协议的简单多人聊天系统，包含一个服务器和多个客户端。服务器接受多个客户端的连接，每个客户端发送的消息都可以转发给其他所有在线的客户端，实现了一个基本的多人实时聊天功能。项目使用Java编程语言编写，利用ServerSocket和Socket创建管道来实现客户端与服务器之间的通信。二、各模块代码分析与解读服务端总体代码：服务端实现：1.创建一个ServerSocket
分布式领域后端服务的限流算法实现大厂资深架构师 Spring Boot 开发实战分布式算法 wpf ai
分布式领域后端服务的限流算法实现关键词：分布式系统、限流算法、令牌桶、漏桶、滑动窗口、Redis、高并发摘要：本文深入探讨分布式系统中后端服务的限流算法实现。我们将从基础概念出发，详细分析各种限流算法的原理和适用场景，包括计数器算法、滑动窗口算法、令牌桶算法和漏桶算法。文章将提供Python实现代码和数学建模，并通过实际案例展示如何在分布式环境中使用Redis实现高效的限流机制。最后，我们将讨论限
50个Java+SpringBoot+Vue毕业设计选题（含技术栈+核心功能） 21光年 java spring boot vue.js 毕业设计毕设
适合人群：计算机专业毕业设计/实战项目/求职作品技术亮点：前后端分离、主流技术栈、多领域覆盖一、电商与交易类智能推荐电商平台技术栈：SpringBoot+Vue+Redis+Elasticsearch核心功能：协同过滤推荐算法、秒杀系统、物流跟踪二手商品交易平台技术栈：SpringBoot+Vue+OSS存储核心功能：多维度检索、信用评分、实名认证社区团购管理系统技术栈：SpringBoot+Vu
纹理贴图算法研究论文综述点云SLAM 算法图形图像处理算法纹理贴图计算机图形学计算机视觉人工智能虚拟现实（VR）纹理贴图算法综述
纹理贴图（TextureMapping）是计算机图形学和计算机视觉中的核心技术，广泛应用于三维重建、游戏渲染、虚拟现实（VR）、增强现实（AR）等领域。对其算法的研究涵盖了纹理生成、映射、缝合、优化等多个方面。1.引言纹理贴图是指将二维图像纹理映射到三维几何表面上，以增强模型的视觉真实感。传统方法主要关注静态几何模型上的纹理生成与映射，而近年来，随着多视角图像重建、RGB-D扫描、神经渲染的发展，
Java解古代案例鸡兔同笼问题（穷举法）阿猫的故乡 java编程 eclipse java
问题：鸡兔同笼，上有35头，下有94只，求鸡兔各有多少只！问题分析：穷举算法的基本思想就是依赖于计算机的强大计算能力从所有可能情况中搜索正确的答案，穷举算法虽然效率不高，但是适合于一些没有明显规律可循的场合。使用穷举算法时，需要明确问题答案的范围，这样才可以在指定范围内搜索答案。指定范围后，就可以使用循环语句和条件判断语句逐步验证候选答案的正确性，从而搜索出正确答案。在以前设未知数x，求鸡兔问题，
华为OD 机试 2025 B卷 - 求解连续序列 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试华为OD机试 2025B卷华为OD2025B卷华为机试2025B卷
求解连续序列华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述已知连续正整数数列{K}=K1,K2,K3…Ki的各个数相加之和为S，i=N(0
从Apollo record文件中提取坐标信息绘制地图轨迹 Hi20240217 代码片段学习 Apollo 自动驾驶地图
从Apollorecord文件中提取坐标信息绘制地图轨迹一、背景二、操作步骤2.1下载record文件并解压2.2查看record文件信息2.3查询Sunnyvale的经纬度2.4从record中提取position绘制地图轨迹2.5绘制卫星地图轨迹2.6运行脚本三、技术总结一、背景自动驾驶技术的发展离不开大量真实道路数据的收集和分析。百度Apollo平台使用record文件格式记录车辆在实际道路
Pytorch实现DenseNet，腾讯T3大牛手把手教你
print("TorchvisionVersion:",torchvision.version)all=[‘DenseNet121’,‘DenseNet169’,‘DenseNet201’,‘DenseNet264’]defConv1(in_planes,places,stride=2):returnnn.Sequential(nn.Conv2d(in_channels=in_planes,out
Pytorch实现DenseNet，先收藏了
classDenseNet(nn.Module):definit(self,init_channels=64,growth_rate=32,blocks=[6,12,24,16],num_classes=1000):super(DenseNet,self).init()bn_size=4drop_rate=0self.conv1=Conv1(in_planes=3,places=init_chan
数据结构面试题编程题_您下次编程面试时应该了解的顶级数据结构 cumichun6193 数据结构链表队列 python java
数据结构面试题编程题byFahimulHaq通过FahimulHaqNiklausWirth,aSwisscomputerscientist,wroteabookin1976titledAlgorithms+DataStructures=Programs.瑞士计算机科学家NiklausWirth在1976年写了一本书，名为《算法+数据结构=程序》。40+yearslater,thatequatio
【Note】《深入理解Linux内核》第十九章：深入理解 Linux 进程通信机制
《深入理解Linux内核》第十九章：深入理解Linux进程通信机制（ProcessCommunication）关键词：IPC、信号、管道、FIFO、消息队列、信号量、共享内存、套接字、内核对象、同步机制一、进程通信概述1.1为什么需要进程通信在Linux系统中，进程是资源隔离的基本单位，彼此间通常无法直接访问彼此的地址空间。因此需要一套机制，使得多个进程之间可以：交换数据；同步行为；发送通知；共享
leetcode 1394. 找出数组中的幸运数简单圣保罗的大教堂 leetcode 哈希 leetcode
在整数数组中，如果一个整数的出现频次和它的数值大小相等，我们就称这个整数为「幸运数」。给你一个整数数组arr，请你从中找出并返回一个幸运数。如果数组中存在多个幸运数，只需返回最大的那个。如果数组中不含幸运数，则返回-1。示例1：输入：arr=[2,2,3,4]输出：2解释：数组中唯一的幸运数是2，因为数值2的出现频次也是2。示例2：输入：arr=[1,2,2,3,3,3]输出：3解释：1、2以及3
JavaEE线程概念
一、线程和进程概念线程是程序执行的最小单元，属于进程的一个实体。一个进程包含多个线程，线程共享的资源有内存空间、文件句柄。线程特性：轻量级：线程的开销相比进程小很多，线程仅需要少量资源就行。并发执行：多个线程可以同时间并发执行，线程之间互不干扰。共享资源：同一进程的线程共享线程资源，多个进程可以同时访问进程的全局变量。进程和线程的区别：进程是程序的一次执行过程，资源分配的最小单位，进程之间通信复杂
《Java修仙传：从凡胎到码帝》第二章：数组迷宫与算法神通
【大道至简，数组为基】修仙界自古流传一句话：“一维数组筑基，二维数组结丹，三维数组可窥天道！”然而，万千修士终其一生，却连最简单的int[]arr=newint[5];都写不明白，更别提在斗法时精准计算索引，稍有不慎，便是“ArrayIndexOutOfBoundsException”（数组越界）走火入魔，身死道消！而今，韩小码初入码农境二层，体内灵气虽能运转，却尚未真正掌握“数据结构”的奥义。若
arp miss攻击_ARP配置教程（一）黃昱儒 arp miss攻击
一、防ARP泛洪攻击当针对全局、VLAN、接口的ARP报文限速以及根据源MAC地址、源IP地址进行ARP报文限速中的多个限速功能同时配置时，设备对同时满足这些限速条件的ARP报文以其中最小的限速值进行限速。当针对全局、VLAN、接口的ARPMiss消息限速以及根据源IP地址进行ARPMiss消息限速中的多个限速功能同时配置时，设备对同时满足这些限速条件的ARPMiss消息以其中最小的限速值进行限速
GPT在AI原生应用领域的无限潜力
GPT在AI原生应用领域的无限潜力关键词：GPT、AI原生应用、自然语言处理、无限潜力、应用场景摘要：本文深入探讨了GPT在AI原生应用领域所展现出的无限潜力。首先介绍了相关背景知识，包括GPT的基本概念和AI原生应用的定义。接着详细解释了GPT的核心概念，以及它与AI原生应用的紧密联系。通过数学模型和公式对GPT的工作原理进行了阐述，并给出了实际的代码案例。还探讨了GPT在多个实际应用场景中的表
Python中使用Graphviz绘制决策树图解黃昱儒
本文还有配套的精品资源，点击获取简介：Graphviz是一款用于数据可视化和算法流程展示的图形绘制软件，特别适用于Python中绘制决策树和其他图形类型。本安装包包含Graphviz安装程序和配置指南，以及如何在Python中利用pydot库等第三方库进行图形绘制的详细步骤。通过配置环境变量和利用DOT语言，用户可以将决策树模型转换为可视化图形，加深对机器学习模型的理解和调试。1.Graphviz
【集成学习】Bagging、Boosting、Stacking算法详解
文章目录1.相关算法详解：2.算法详细解释：2.1Bagging：2.2Boosting：2.3Stacking：2.4K-foldMulti-levelStacking：集成学习（EnsembleLearning）是一种通过结合多个模型的预测结果来提高整体预测性能的技术。它通过将多个学习器的结果集成起来，使得最终的模型性能更强，具有更好的泛化能力。常见的集成学习框架包括：Bagging、Boos
OpenCV中DPM（Deformable Part Model）目标检测类cv::dpm::DPMDetector 村北头的码农 OpenCV opencv 目标检测人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV中用于基于可变形部件模型（DPM）的目标检测器，主要用于行人、人脸等目标的检测。它是一种传统的基于特征的目标检测方法，不依赖深度学习，而是使用HOG特征+部件模型来进行检测。示例代码#include#include#includeusingnamesp
线性回归（Linear regression）算法详解 .30-06Springfield 人工智能算法详解算法线性回归回归 python 人工智能机器学习
文章目录一、线性回归基础概念1.1什么是线性回归1.2线性回归小例子二、sklearn中线性回归的API和参数2.1安装sklearn2.2LinearRegression2.3SGDRegresso2.4Lasso2.5Ridge2.6各个API的对比三、使用sklearn实现线性回归3.1程序概述3.2核心功能3.3关键技术细节3.4程序运行结果3.5代码结构一、线性回归基础概念1.1什么是线
程序环境和预处理晚云与城 c语言
程序的翻译环境1.翻译环境：将源代码转为可执行的机器指令。程序的执行环境1.执行环境：用于实际执行代码。详解：C语言程序的编译+链接1.要了解的名词：源文件（c），目标文件（obj）编译器，链接器，链接库，可执行程序。2.源文件（可多个）——>编译器（每个源文件对应一个）——>目标文件——>链接器(将目标文件捆在一起)——>可执行程序。链接库——>链接器——>可执行程序。（会引入标准C函数库中任何
c语言——数组晚云与城 c语言算法数据结构
目录1.数组的概念2.⼀维数组的创建和初始化3.⼀维数组的使用4.⼀维数组在内存中的存储5.sizeof计算数组元素个数6.⼆维数组的创建7.⼆维数组的初始化8.⼆维数组的使用9.⼆维数组在内存中的存储10.C99中的变长数组1.数组的概念数组是一组相同类型元素的集合（能与数学中的集合联想起来理解）。主要目的之一是能够批量存储多个相同类型的数据，让其更容易解决批量操作的问题。1.放1个或多个数据，
【数据挖掘】支持向量机（SVM）大雨淅淅大数据数据挖掘支持向量机算法大数据回归
目录一、支持向量机（SVM）算法概述二、支持向量机（SVM）算法优缺点和改进2.1支持向量机（SVM）算法优点2.2支持向量机（SVM）算法缺点2.3支持向量机（SVM）算法改进三、支持向量机（SVM）算法实现3.1支持向量机（SVM）算法C语言实现3.2支持向量机（SVM）算法JAVA实现3.3支持向量机（SVM）算法python实现四、支持向量机（SVM）算法应用五、支持向量机（SVM）算法发
Pytorch 之torch.nn初探 torch.nn.Module与线性--Linear layers 十有久诚人工智能机器学习 pytorch
初探torch.nn.Module神经网络可以使用torch.nn包构建。它提供了几乎所有与神经网络相关的功能，例如：线性图层nn.Linear，nn.Bilinear卷积层nn.Conv1d，nn.Conv2d，nn.Conv3d，nn.ConvTranspose2d非线性nn.Sigmoid，nn.Tanh，nn.ReLU，nn.LeakyReLU池化层nn.MaxPool1d，nn.Aver
深入解析VAE：从理论到PyTorch实战，一步步构建你的AI“艺术家” 电脑能手人工智能深度学习 python
摘要：你是否好奇AI如何“凭空”创造出从未见过的人脸或画作？变分自编码器（VAE）就是解开这一谜题的关键钥匙之一。本文将带你从零开始，深入浅出地剖析VAE的迷人世界。我们将用生动的比喻解释其核心思想，拆解其背后的数学原理（KL散度与重参数技巧），并最终用PyTorch代码手把手地构建、训练和可视化一个完整的VAE模型。无论你是初学者还是有一定经验的开发者，相信这篇文章都能让你对生成模型有一个全新的
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别大家好！欢迎来到我的深度学习博客！对于每个踏入计算机视觉领域的人来说，MNIST手写数字识别就像是编程世界的“Hello,World!”。它足够简单，能够让我们快速上手；也足够完整，可以帮我们走通一个深度学习项目的全流程。之前我们可能用Keras体验过“搭积木”式的快乐，今天，我们将换一个同样强大且灵活的框架——PyTorch，
Pytorch：nn.Linear中是否自动应用softmax函数浩瀚之水_csdn 深度学习目标检测 #Pytorch框架 pytorch 人工智能 python
在本文中，我们将介绍Pytorch中的nn.Linear模块以及它是否自动应用softmax函数。nn.Linear是Pytorch中用于定义线性转换的模块，常用于神经网络的全连接层。一、什么是nn.Linearnn.Linear是PyTorch中的一个类，它是实现线性变换的模块。nn.Linear的主要作用是将输入张量和权重矩阵相乘，再添加偏置，生成输出张量。我们来看一个简单的示例，展示如何使用
设计模式之【模版方法模式】丶小鱼丶设计模式设计模式 java
目录接口抽象类多种实现算法接口publicinterfaceIndex{//最大容量intMAX_CAPACITY=1implementsIndex{@OverridepublicintcomputeIndex(intcapacity,Ekey){//整体实现步骤//1、使容量为2的n次幂(通用逻辑在父类中实现)capacity=twoPowerCapacity(capacity);//2、计算k
【信号去噪】基于NLM时间序列心电信号去噪附matlab代码天天Matlab科研工作室信号处理 Matlab各类代码 matlab 开发语言 fpga开发
1简介作为一种信号预处理手段,信号去噪在众多信号处理应用中发挥着重要的作用.到目前为止,信号去噪问题被大量研究,并取得了许多重要成果,涌现出了包括非局部均值(NLM)去噪算法在内的一批优秀的去噪方法.值得一提的是,相比于传统的局部去噪算法,非局部均值去噪算法有着更好的去噪性能和更好的信号细节保留能力.2部分代码function[denoisedSig,debug]=NLM_1dDarbon(sig
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

pytorch 绘制多个算法loss_PyTorch并行训练指南：单机多卡并行、混合精度、同步BN训练...

你可能感兴趣的:(pytorch,绘制多个算法loss)