9eKY

PyTorch分布式DPP涉及的基本概念与问题

PyTorch分布式DPP涉及的基本概念与问题

1 分布式引入的参数
- 1.1 rank、local_rank、node等的概念
- 1.2 通信参数与模式
- 1.3 分布式任务中常用的函数
2 提速参数与隐藏的简单问题
- 2.1 dataloader提速的参数
- 2.2 checkpoint的保存与加载
- 2.3 dist.init_process_group的init_method 方式
- 2.4 进程内指定显卡
- 2.5 CUDA初始化的问题

本篇主要讲解DDP的一些概念和问题，主要涵盖如下：

1、参数rank、local_rank、node、gpu的含义，以及它们之间的关系？一个rank/local_rank是否就是对应一个gpu？
2、checkpoint保存与加载有什么不一样？
3、单卡到分布式，有些什么地方能帮助提速？

如果需要了解DDP使用请看上一篇
PyTorch分布式DPP启动方式（包含完整用例）

1 分布式引入的参数

1.1 rank、local_rank、node等的概念

rank：用于表示进程的编号/序号（在一些结构图中rank指的是软节点，rank可以看成一个计算单位），每一个进程对应了一个rank的进程，整个分布式由许多rank完成。
node：物理节点，可以是一台机器也可以是一个容器，节点内部可以有多个GPU。
rank与local_rank： rank是指在整个分布式任务中进程的序号；local_rank是指在一个node上进程的相对序号，local_rank在node之间相互独立。
nnodes、node_rank与nproc_per_node： nnodes是指物理节点数量，node_rank是物理节点的序号；nproc_per_node是指每个物理节点上面进程的数量。
word size ：全局（一个分布式任务）中，rank的数量。

上一个运算题： 每个node包含16个GPU，且nproc_per_node=8，nnodes=3，机器的node_rank=5，请问word_size是多少？   
答案：word_size = 3*8 = 24

为了方便理解举个例子，比如分布式中有三台机器，每台机器起4个进程，每个进程占用1个GPU，如下图所示：

图中：一共有12个rank，nproc_per_node=4，nnodes=3，每个节点都一个对应的node_rank。

Group：进程组，一个分布式任务对应了一个进程组。只有用户需要创立多个进程组时才会用到group来管理，默认情况下只有一个group。
注意：

1、rank与GPU之间没有必然的对应关系，一个rank可以包含多个GPU；一个GPU也可以为多个rank服务（多进程共享GPU）。

这一点在理解分布式通信原理的时候比较重要。因为很多资料里面对RingAllReduce、PS-WorK 等模式解释时，习惯默认一个rank对应着一个GPU，导致了很多人认为rank就是对GPU的编号。

2、“为什么程序里面的进程用rank表示而不用proc表示?”

这是因为pytorch是在不断迭代中开发出来的，有些名词或者概念并不是一开始就设计好的。所以，会发现node_rank 跟软节点的rank没有直接关系。

1.2 通信参数与模式

通信过程主要是完成模型训练过程中参数信息的传递，主要考虑通信后端和通信模式选择，后端与模式对整个训练的收敛速度影响较大，相差可达2~10倍。在DDP中支持了几个常见的通信库，而数据处理的模式写在PyTorch底层，供用户选择的主要是后端。在初始化时需要设置：

backend ：通信后端，可选的包括：nccl（NVIDIA推出）、gloo（Facebook推出）、mpi（OpenMPI）。从测试的效果来看，如果显卡支持nccl，建议后端选择nccl，，其它硬件（非N卡）考虑用gloo、mpi（OpenMPI）。
master_addr与master_port：主节点的地址以及端口，供init_method 的tcp方式使用。因为pytorch中网络通信建立是从机去连接主机，运行ddp只需要指定主节点的IP与端口，其它节点的IP不需要填写。这个两个参数可以通过环境变量或者init_method传入。

# 方式1：
os.environ['MASTER_ADDR'] = 'localhost'
os.environ['MASTER_PORT'] = '12355'
dist.init_process_group("nccl", 
                        rank=rank, 
                        world_size=world_size)
# 方式2：
dist.init_process_group("nccl", 
                        init_method="tcp://localhost:12355",
                        rank=rank, 
                        world_size=world_size)

1.3 分布式任务中常用的函数

在分布式中有许多功能函数，可以参看torch分布式API，这里例举一些最常用的函数：

功能函数：

判断底层通信库是否可用：

torch.distributed.is_nccl_available()  # 判断nccl是否可用
torch.distributed.is_mpi_available()  # 判断mpi是否可用
torch.distributed.is_gloo_available() # 判断gloo是否可用

获取当前进程的rank

torch.distributed.get_rank(group=None)  # group=None，使用默认的group

获取任务中（或者指定group）中，进程的数量

torch.distributed.get_rank(group=None)   # group=None，使用默认的group

获取当前任务（或者指定group）的后端。

torch.distributed.get_backend(group=None)  # group=None，使用默认的group

通信函数：

分布式的梯度聚合工作在DDP中完成，一般用户不需要去修改，但是对于一些需要多机进程之间交流的信息，用户就需要调用一些后端操作的API。后端对一些操作的支持方式：

对于上述的一些操作，可以参照NCCL库来理解原理，这里例举常用的操作：

reduce操作：

torch.distributed.reduce(tensor, dst, op=<ReduceOp.SUM: 0>, group=None, async_op=False)
# op：元素进行reduce计算的方式。
# async_op: 是否进行异步操作。

all_reduce操作函数：将不同rank进程的数据进行操作。比如sum操作。

torch.distributed.all_reduce(tensor, op=<ReduceOp.SUM: 0>, group=None, async_op=False)  
# op：元素进行reduce计算的方式。  
# async_op: 是否进行异步操作。

举例：

all_gather操作：

torch.distributed.all_gather(tensor_list, tensor, group=None, async_op=False)

举例：

等待/同步操作
对所有的进程进行同步，比如利用rank0进行数据的拷贝，而其他进程等待rank0完成操作。

torch.distributed.barrier(group=None, async_op=False, device_ids=None)

2 提速参数与隐藏的简单问题

2.1 dataloader提速的参数

num_workers: 加载数据的进程数量，默认只有1个，增加该数量能够提升数据的读入速度。(注意：该参数>1，在低版本的pytorch可能会触发python的内存溢出） pin_memory: 锁页内存，加快数据在内存上的传递速度。若数据加载成为训练速度的瓶颈，可以考虑将这两个参数加上。

data_loader_train = torch.utils.data.DataLoader(dataset=data_set, batch_size=32,num_workers=16,pin_memory=True)

2.2 checkpoint的保存与加载

保存：一般情况下，我们只需要保存一份ckpt即可。可以用rank来指定一个进程保存：

if torch.distributed.get_rank() == 0: #一般用0，当然，可以选任意的rank保存。
torch.save(net, “net.pth”)
加载：加载不同于保存，可以让每个进程独立的加载，也可以让某个rank加载后然后进行广播。值得注意的是，当模型大的情况下，独立加载最好将模型映射到cpu上，不然容易出现加载模型的OOM。

torch.load(model_path, map_location='cpu')

2.3 dist.init_process_group的init_method 方式

init_method支持tcp和共享文件两种，一般情况下我们使用tcp方式来分享信息，也可以用共享文档，但必须要保证共享文件在每个进程都能访问到，文件系统需要支持锁定。

# 方式一：
dist.init_process_group(
    init_method='tcp://10.1.1.20:23456',
    rank=args.rank,
    world_size=4)

# 方式二：
dist.init_process_group(
    init_method='file:///mnt/nfs/sharedfile',
    rank=args.rank,
    world_size=4)

2.4 进程内指定显卡

目前很多场景下使用分布式都是默认一张卡对应一个进程，所以通常，我们会设置进程能够看到卡数：下面例举3种操作的API，其本质都是控制进程的硬件使用。

# 方式1：在进程内部设置可见的device
torch.cuda.set_device(args.local_rank)
# 方式2：通过ddp里面的device_ids指定
ddp_model = DDP(model, device_ids=[rank]) 
# 方式3：通过在进程内修改环境变量
os.environ['CUDA_VISIBLE_DEVICES'] = loac_rank

如果不设置显存可见的参数，那么节点内的rank会调用所用的显卡。这样的话一张显卡内可能加载多份模型进行了多份计算，对于大一点的模型或者batch_size设置大的情况下，会导致OOM；

对于显存占用小的模型，跑多份的结果有可能提速或者降速，取决于显卡的算力。当一张显卡跑多个模型时，对于算力的压榨方式可以考虑用MPS提速，有兴趣可以看一下：MPS提速

2.5 CUDA初始化的问题

多进程中，防止cuda被初始化多次。错误日志如下：

torch1.8.0:

"Cannot re-initialize CUDA in forked subprocess. To use CUDA with 
RuntimeError: Cannot re-initialize CUDA in forked subprocess.
To use CUDA with multiprocessing, you must use the 'spawn' start method

torch1.3.0:

RuntimeError: cuda runtime error (3) : initialization error at /pytorch/aten/src/THC/THCGeneral.cpp:50

导致错误的原因：在主进程里面使用了torch.cuda操作函数，导致了cuda多次初始化。复现代码：

import torch
from torch.multiprocessing import Process


def test(rank):
    torch.cuda.set_device(rank)  #子进程中使用torch.cuda的API


if __name__ == "__main__":
    world_size = torch.cuda.device_count()  # 主进程中使用torch.cuda的API
    processes = []
    for rank in range(world_size):
        p = Process(target=test, args=(rank,))
        p.start()
        processes.append(p)
    for p in processes:
        p.join()

解决方案：要么将cuda操作移入子进程，要么使用spawn函数。

原文首发于：PyTorch分布式训练基础–DDP使用
参考：
https://developer.nvidia.com/nccl
https://pytorch.apachecn.org/docs
https://pytorch.org/docs/stable/distributed.html#launch-utility
https://pytorch.org/docs/master/notes/ddp.html
https://discuss.pytorch.org/t/cuda-error-out-of-memory-when-load-models/38011

你可能感兴趣的:(pytorch,pytorch,深度学习,机器学习)

There was a problem confirming the ssl certificate: [SSL:CERTIFICATE_ VERIFY_ FAILED]certificate解决方案爱编程的喵喵 Python基础课程 python pip SSL certificate 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Therewasaproblemco
使用 Python 和 scikit-learn 实现 KNN 分类：以鸢尾花数据集为例弥树子 python scikit-learn 分类
在机器学习的世界里，K-NearestNeighbors（KNN）算法是一种简单而强大的分类方法。它基于一个直观的想法：相似的数据点往往属于同一类别。本文将通过Python的scikit-learn库实现KNN分类，以经典的鸢尾花数据集为例，展示从数据加载到模型评估的完整流程。1.KNN算法简介KNN是一种监督学习算法，主要用于分类和回归任务。它的工作原理非常简单：对于一个新的数据点，算法会查找训
DeepSeek--通向通用人工智能的深度探索者油泼辣子多加专业名词解释人工智能
一、词源与全称“DeepSeek"由"Deep”（深度）与"Seek"（探索）组合而成，中文译名为"深度求索"。其全称为"深度求索人工智能基础技术研究有限公司"，英文对应"DeepSeekArtificialIntelligenceResearchInstitute"。这一命名体现了企业对深度学习技术与未知领域持续探索的双重追求。二、发展历程初创期（2023）公司成立于中国杭州，创始团队汇聚了来自
git clone出现fatal: unable to access Failed to connect to github.com port 443: Timed out解决方案爱编程的喵喵 Python基础课程 git github timeout port 443 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了gitclone出现fatal:un
Gradio 快速构建机器学习web可视化界面心得算法小菜鸟成长心得 python
1.操作完成提示try:#对输入的字符串代码进行编译运行exec(get_test_code_example)gr.Info("Modeltestingcompletedsuccessfully.")except:raisegr.Error("Modeltestingfailed.")用到了gr.Info()和gr.Errot(）
linux git clone出现fatal: unable to access Failed to connect to github.com port 443: Timed out解决方案 herosunly C/C++/Linux解决方案 linux git github timeout port 443
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了linuxgitclone出现fatal:unabletoaccessF
flask+layui学生信息管理系统元宇宙中的程序员 flask layui python
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。一、数据库建模1、创建数据模型classStudentORM(db.Model):stu_id=d
Python 3.9它来啦！！！ python程序员小'鹏 python 编程语言经验分享程序人生
Python3.9，来了！小编本身就是一名python开发工程师，我自己花了三天时间整理了一套python学习教程，从最基础的python脚本到web开发，爬虫，数据分析，数据可视化，机器学习，等，这些资料有想要的小伙伴"点击"即可领取过去一年，来自世界各地的开发者们一直在致力于Python3.8的改进。Python3.9beta版本已经存在了一段时间，第一个正式版本于2020年10月5日发布。每
AI软件外包需要注意什么外包开发AI软件的关键因素是什么如何选择AI外包开发语言北京动点飞扬软件 AI外包
1.定义目标与需求首先，要明确你希望AI智能体做什么。是自动化任务、数据分析、自然语言处理，还是其他功能？明确目标可以帮助你选择合适的技术和方法。2.选择开发平台与工具开发AI智能体的软件时，你需要选择适合的编程语言、框架和工具。例如：编程语言：Python是最常用的语言，因为它有强大的AI/ML库，如TensorFlow、PyTorch、scikit-learn等。开发平台：你可以使用本地环境、
AI智能制造软件有什么用处雪叶雨林行业资讯 AI 人工智能制造
随着信息技术与制造业的深度融合，人工智能（AI）逐渐成为提升制造效率和灵活性的重要工具。AI智能制造软件通过集成数据分析、机器学习和自动化流程，为企业提供了优化生产、降低成本和提高质量的新途径。生产过程优化实时监控与反馈AI智能制造软件能够实时收集生产线上的各类数据，如温度、压力、速度等参数，并通过机器学习算法进行分析处理。一旦检测到异常情况，系统会立即发出警报并提供改进建议，帮助企业快速响应问题
ModuleNotFoundError: No module named ‘pywin32_bootstrap‘解决方案爱编程的喵喵 Python基础课程 python ModuleNotFound win32_bootstap 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ModuleNotFoundErro
人脸识别的经典深度学习方法明初啥都能学会深度学习人工智能
人脸识别的经典深度学习方法引言1.卷积神经网络（CNN）1.1LeNet1.2AlexNet1.3VGGNet1.4ResNet2.人脸检测2.1Viola-Jones算法2.2基于深度学习的人脸检测3.人脸特征提取3.1主成分分析（PCA）3.2人脸对齐3.2.1基于特征点的对齐3.2.2基于深度学习的对齐4.人脸识别模型4.1传统机器学习方法4.2基于深度学习的方法5.公式解读5.1卷积运算5
AI智能获客工具的意义是什么雪叶雨林 AI 行业资讯人工智能
在当今竞争激烈的市场环境中，企业需要高效、精准的获客策略来维持增长和竞争力。AI智能获客工具的出现，为企业提供了一种全新的解决方案，通过自动化和智能化手段提高获客效率和质量。一、AI智能获客工具的核心价值1.1提高获客效率AI智能获客工具通过自动化流程，如自动筛选潜在客户、自动发送营销信息等，大幅减少了人力投入和时间成本，从而提高了获客效率。1.2精准定位潜在客户利用机器学习和大数据分析技术，AI
MicroAI™将人工智能培训引入RENESAS MCU sinat_41698914 人工智能 mcu big data
在端点部署的人工智能技术将加快资产密集型行业的上市时间达拉斯--(美国商业资讯)--边缘原生人工智能(AI)和机器学习(ML)产品领域的先驱MicroAITM今天宣布，公司已将其MicroAIAtomML™技术与RenesasRA微控制器(MCU)产品线进行整合。与全球微控制器领导者Renesas合作将机器学习引入MCU，并借助MicroAI直接在嵌入式环境中训练机器学习模型的能力——这在业界尚属
基于深度学习的遥感目标检测系统：UI界面、R-CNN模型与数据集准备 2025年数学建模美赛 R-CNN检测系统人工智能深度学习 r语言 cnn python ui 目标检测
一、引言遥感图像中的目标检测在很多领域，如环境监测、土地利用、城市规划、农业资源监测等方面有着广泛应用。遥感图像具有高分辨率和丰富的空间信息，但同时也带来了目标检测中的许多挑战，特别是在目标尺度变化、遮挡和复杂背景的情况下。因此，采用深度学习技术，尤其是卷积神经网络（CNN）和区域卷积神经网络（R-CNN），在遥感图像目标检测中取得了显著的成果。本文将详细介绍基于深度学习的遥感目标检测系统，使用R
Kaggle房价预测一名小菜鸟的学习之路深度学习pytorch 深度学习机器学习 python 人工智能神经网络
Kaggle房价预测作为深度学习基础篇章的总结，我们将对本章内容学以致用。下面，让我们动手实战一个Kaggle比赛：房价预测。本节将提供未经调优的数据的预处理、模型的设计和超参数的选择。我们希望读者通过动手操作、仔细观察实验现象、认真分析实验结果并不断调整方法，得到令自己满意的结果。%matplotlibinlineimporttorchimporttorch.nnasnnimportnumpya
C++ 与机器学习：构建高效推理引擎的秘诀 salsm C++编程魔法师 c++机器学习开发语言
随着深度学习模型逐渐从研究走向生产环境，推理能力成为部署中的关键环节。模型的推理引擎需要以极低的延迟快速处理输入数据，同时最大化地利用硬件资源。虽然Python被广泛用于模型的训练和开发，但C++却在推理领域独占鳌头，其性能优势和硬件控制能力无可替代。在这篇文章中，我们将从为什么选择C++、构建高效推理引擎的细节，以及相似的开源项目三个方面深入探讨如何利用C++打造高效的机器学习推理引擎。目录为什
《动手学深度学习》(PyTorch版) chaser&upper 深度学习 pytorch 深度学习 python
《动手学深度学习》PyTorch版前言简介面向人群食用方法方法一方法二方法三目录原书地址引用阅读指南前言读书啦！！！本项目将《动手学深度学习》原书中MXNet代码实现改为PyTorch实现。原书作者：阿斯顿·张、李沐、扎卡里C.立顿、亚历山大J.斯莫拉以及其他社区贡献者，GitHub地址：https://github.com/d2l-ai/d2l-zh此书的中英版本存在一些不同，针对此书英文版的P
从简单到深刻的认知发展 AI架构设计之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
认知发展，人工智能，深度学习，神经网络，机器学习，自然语言处理，计算机视觉1.背景介绍认知发展是人类从简单到复杂的思维方式演进的过程，它涉及感知、记忆、语言、推理和决策等多个方面。随着人工智能技术的飞速发展，我们开始尝试用计算机模拟人类的认知能力，构建能够学习、理解和解决复杂问题的智能系统。从早期的符号逻辑到如今的深度学习，人工智能的发展经历了多个阶段。早期的人工智能研究主要集中在规则和逻辑推理上
大数据和智能数据应用架构系列教程之：大数据与人工智能 AI天才研究院 AI实战大数据AI人工智能 Python实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍概述“大数据”是指海量、高维、多样化的数据集合。随着人类对数据处理和管理的需求越来越复杂，越来越依赖机器学习、人工智能等新兴技术。在过去的一段时间里，越来越多的人开始关注到“大数据”这一颗龙头。如今，“大数据”已经成为一个新的名词，它既包含了大量的数据，也带来了巨大的价值。因此，研究、开发、应用“大数据”技术也逐渐成为各行各业的专业人才需求。在这个快速发展的
使用onnxruntime-web 运行yolov8-nano推理 CHEN_RUI_2200 机器学习 YOLO
ONNX（OpenNeuralNetworkExchange）模型具有以下两个特点促成了我们可以使用onnxruntime-web直接在web端上运行推理模型，为了让这个推理更直观，我选择了试验下yolov8识别预览图片：1.跨平台兼容性ONNX是一种开放的格式，可以在不同的深度学习框架之间共享模型，如PyTorch、TensorFlow、MXNet和Caffe2。这使得用户可以在一个框架中训练模
Silero VAD 开源项目教程苏鹃咪Healthy
SileroVAD开源项目教程项目地址:https://gitcode.com/gh_mirrors/si/silero-vad项目介绍SileroVAD是一个预训练的企业级语音活动检测器（VoiceActivityDetector），由snakers4团队开发并开源在GitHub上。该项目支持多种语言和不同领域的音频，具有灵活的采样率（8000Hz和16000Hz），并且可以在PyTorch和O
FSMN-VAD与Silero-VAD Wasser. python 语音识别
引用说明：FSMN-VAD引用魔塔社区项目：https://modelscope.cn/models/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch/summary感谢阿里大佬的开源与介绍。这篇文章主要介绍两种的ASR中的VAD开源模型，第一种就是FSMN-VAD，这个是达摩院语音团队提出的高效语音端点检测模型，用于检测输入音频中有效语音的起止时间点信息。
人工智能学习框架：深入解析与实战指南一ge科研小菜鸡人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言随着人工智能（AI）技术的飞速发展，深度学习、强化学习和自然语言处理等领域的应用愈加广泛。掌握人工智能学习框架（如TensorFlow、PyTorch、Keras等）已成为开发智能系统、研究前沿技术的必备技能。本指南将全面介绍人工智能主流学习框架的特点、安装方法、核心功能，以及通过实践案例展示如何使用这些框架进行AI模型开发、训练与优化。1.
【前沿聚焦】机器学习的未来版图：从自动化到隐私保护的技术突破网罗开发人工智能 AI 大模型机器学习人工智能
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，深度学习作为其主要驱动力之一，已经在各个领域取得了显著的成果。然而，随着模型规模的不断扩大，如何高效地搭建、训练和部署深度学习模型，成为一个亟待解决的问题。传统的单机训练方式在计算资源有限的情况
# 第一章：认识chatgpt 出门喝奶茶 chatgpt chatgpt
chatgpt发展背景详细介绍一、基础理论背景人工智能和自然语言处理的兴起早期理论:20世纪中期，人工智能（AI）初见端倪，目标是模拟人类智能。自然语言处理作为AI的重要分支，致力于让机器理解和生成人类语言。关键里程碑:1980年代的统计方法和2000年代的神经网络技术，使NLP实现了从规则驱动到数据驱动的转变。神经网络与深度学习2010年代，深度学习的兴起极大推动了NLP的发展。基于大规模语料库
机器学习&深度学习目录 UQI-LIUWJ 各专栏目录深度学习人工智能 1024程序员节
机器学习模型机器学习笔记：Transformer_刘文巾的博客-CSDN博客attention相关机器学习笔记：attention_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ELMOBERT_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ViT（论文AnImageIsWorth16X16Words:TransformersforImageRecognitionatScale）_UQ
遥感深度学习过程中图像分割的尺寸对模型训练结果的影响司南锤深度学习遥感深度学习人工智能
1.计算资源与显存占用大尺寸图像：需要更高的显存和计算资源，可能限制训练时的批大小（batchsize），甚至导致无法训练。解决方案：通常将大图裁剪为小尺寸的补丁（patches），例如256x256或512x512。小尺寸图像：显存占用低，但可能丢失全局上下文信息（如大面积地物分布），影响模型对复杂场景的理解。2.模型感受野与上下文信息小尺寸输入：模型感受野受限，可能无法捕捉大范围地物（如河流、
如何解决小尺寸图像分割中的样本不均衡问题司南锤深度学习遥感笔记深度学习
1.生成对抗数据增强（Copy-PasteAugmentation）原理：将稀有目标的像素块复制粘贴到其他图像中，低成本生成平衡数据。适用场景：小目标（如车辆、船只）或极端稀疏类别（如灾害损毁区域）。PyTorch实现：importrandomdefcopy_paste_augment(image,mask,paste_image,paste_mask):#从粘贴数据中随机选择一个目标实例obj_
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他