JMXGODLZ

Pytorch多机多卡的多种打开方式

前言

为了获取最佳阅读体验，推荐移步个人博客
在上一篇介绍多卡训练原理的基础上，本篇主要介绍Pytorch多机多卡的几种实现方式：DDP、multiprocessing、Accelerate。

在介绍具体实现之前，torch.distributed 涉及的分布式概念如下：

**group：**进程组，通常一个job只有一个组，即一个world，使用多机时，一个group产生了多个world。
**world_size：**一个job的全局进程数量
**rank：**进程的序号，一般设置rank=0的主机为master节点。
**local_rank：**进程内部的GPU序号。

比如，有两台8卡机器，这时具有一个group，2个world，每个world_size为8，第一个主机rank=0，显卡编号依次为0,…,7，第二个主机rank=1，显卡编号依次为0,…,7。

在多机多卡的分布式训练过程中，为每个进程的模型、数据配置好这些参数至关重要。

DDP

Pytorch分布式执行流程如下：

init_process_group 初始化进程组，同时初始化 distributed 包。
创建分布式模型model = DDP(model)
创建分布式数据采样的datasampler
利用torch.distributed.launch控制进程训练
destory_process_group销毁进程组

进程组初始化

init_process_group(backend, 
                   init_method=None, 
                   timeout=datetime.timedelta(0, 1800), 
                   world_size=-1, 
                   rank=-1, 
                   store=None)

TCP初始化

使用TCP初始化时，需要指定下列参数：

rank 为当前进程的进程号
word_size 为当前 job 的总进程数
init_method 内指定 tcp 模式，且所有进程的 ip:port 必须一致，设定为主进程的 ip:port

初始化时，需要注意下列事项：

在 rank==0 的进程内保存参数,一般是rank0主节点来分发广播梯度。
若程序内未根据 rank 设定当前进程使用的 GPUs，则默认使用全部 GPU，且以数据并行的方式使用。
每条命令表示一个进程，若已开启的进程未达到 word_size 的数量，则所有进程会一直等待。
每台主机上可以开启多个进程。但是，若未为每个进程分配合适的 GPU，则同机不同进程可能会共用 GPU，应该坚决避免这种情况，容易爆显存。
使用 gloo 后端进行 GPU 训练时，会报错。

参考代码如下，需要在args里面添加指定的参数：

import torch.distributed as dist
import torch.utils.data.distributed

# ......
parser = argparse.ArgumentParser(description='PyTorch distributed training on cifar-10')
parser.add_argument('--rank', default=0,
                    help='rank of current process')
parser.add_argument('--word_size', default=2,
                    help="word size")
parser.add_argument('--init_method', default='tcp://127.0.0.1:23456',
                    help="init-method")
args = parser.parse_args()

# ......
dist.init_process_group(backend='nccl', init_method=args.init_method, rank=args.rank, world_size=args.word_size)

# ......
trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=download, transform=transform)
train_sampler = torch.utils.data.distributed.DistributedSampler(trainset)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=batch_size, sampler=train_sampler)

# ......
net = Net()
net = net.cuda()
net = torch.nn.parallel.DistributedDataParallel(net)

执行脚本如下：

# Node 1 : ip 192.168.1.201  port : 12345
python tcp_init.py --init_method tcp://192.168.1.201:12345 --rank 0 --word_size 3

# Node 2 : 
python tcp_init.py --init_method tcp://192.168.1.201:12345 --rank 1 --word_size 3

# Node 3 : 
python tcp_init.py --init_method tcp://192.168.1.201:12345 --rank 2 --word_size 3

ENV初始化

在ENV初始化方式中，init中无需指定参数，主要从机器的环境变量中获取参数。

该初始化中需要设定local_rank参数，确定单机进程的序号。
然后，通过torch.distributed.launch设定nnodes节点数，node_rank当前主机进程序号，nproc_per_node每个节点的进程数量，master_addr主节点地址，master_port主节点端口，在环境变量中获取这些参数。

注意事项如下：

使用 torch.distributed.launch 工具时，将会为当前主机创建 nproc_per_node 个进程，每个进程独立执行训练脚本。同时，它还会为每个进程分配一个 local_rank 参数，表示当前进程在当前主机上的编号。例如：rank=2, local_rank=0 表示第 3 个节点上的第 1 个进程。
在 rank==0 的进程内保存参数。
Env 方式中，在 init_process_group 中，无需指定任何参数
合理利用 local_rank 参数，来合理分配本地的 GPU 资源
每条命令表示一个进程。若已开启的进程未达到 word_size 的数量，则所有进程会一直等待。

参考代码如下：

import torch.distributed as dist
import torch.utils.data.distributed

# ......
import argparse
parser = argparse.ArgumentParser()
# 注意这个参数，必须要以这种形式指定，即使代码中不使用。因为 launch 工具默认传递该参数
parser.add_argument("--local_rank", type=int)
args = parser.parse_args()

# ......
dist.init_process_group(backend='nccl', init_method='env://')

# ......
trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=download, transform=transform)
train_sampler = torch.utils.data.distributed.DistributedSampler(trainset)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=batch_size, sampler=train_sampler)

# ......
# 根据 local_rank，配置当前进程使用的 GPU
net = Net()
device = torch.device('cuda', args.local_rank)
net = net.to(device)
net = torch.nn.parallel.DistributedDataParallel(net, device_ids=[args.local_rank], output_device=args.local_rank)

执行脚本如下：

python -m torch.distributed.launch --nproc_per_node=2 --nnodes=3 --node_rank=0 --master_addr="192.168.1.201" --master_port=23456 env_init.py

python -m torch.distributed.launch --nproc_per_node=2 --nnodes=3 --node_rank=1 --master_addr="192.168.1.201" --master_port=23456 env_init.py

python -m torch.distributed.launch --nproc_per_node=2 --nnodes=3 --node_rank=2 --master_addr="192.168.1.201" --master_port=23456 env_init.py

共享文件系统初始化

使用共享文件系统初始化时，与TCP初始化类似，需要指定下列参数：

rank 为当前进程的进程号
word_size 为当前 job 的总进程数
init_method 内指定 文件系统 模式，以 file:// 为前缀，表示文件系统各式初始化。/xxx 表示共享的文件，各个进程在共享文件系统中通过该文件进行同步或异步。因此，所有进程必须对该文件具有读写权限。

参考代码如下：

mport torch.distributed as dist

# ......
parser = argparse.ArgumentParser(description='PyTorch distributed training on cifar-10')
parser.add_argument('--rank', default=0,
                    help='rank of current process')
parser.add_argument('--word_size', default=2,
                    help="word size")
parser.add_argument('--init_method', default='file:///mnt/nfs/sharedfile',
                    help="init-method")
args = parser.parse_args()

# rank should always be specified
dist.init_process_group(backend, init_method='file:///mnt/nfs/sharedfile',
                        world_size=4, rank=args.rank)

# ......
trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=download, transform=transform)
train_sampler = torch.utils.data.distributed.DistributedSampler(trainset)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=batch_size, sampler=train_sampler)

# ......
# 根据 local_rank，配置当前进程使用的 GPU
net = Net()
device = torch.device('cuda', args.local_rank)
net = net.to(device)
net = torch.nn.parallel.DistributedDataParallel(net, device_ids=[args.local_rank], output_device=args.local_rank

执行脚本如下：

Node1:
python mnsit.py --init-method file://PathToShareFile/MultiNode --rank 0 --world_size 2
Node2:
python mnsit.py --init-method file://PathToShareFile/MultiNode --rank 1 --world_size 2

DistributedDataParallel

torch.nn.parallel.DistributedDataParallel(module, 
                                          device_ids=None, 
                                          output_device=None, 
                                          dim=0, 
                                          broadcast_buffers=True, 
                                          process_group=None, 
                                          bucket_cap_mb=25, 
                                          find_unused_parameters=False, 
                                          check_reduction=False)

将给定的 module 进行分布式封装，其将输入在 batch 维度上进行划分，并分配到指定的 devices 上。

module 会被复制到每台机器的每个 进程 上，每一个模型的副本处理输入的一部分。

在反向传播阶段，每个机器的每个 进程 上的梯度进行汇总并求平均。与 DataParallel 类似，batch size 应该大于 GPU 总数。

主要参数介绍：

**module：**将完整的model封装为分布式module,后续需要调用model的方法时，可以采用module.model.xxx
**device_ids：**需要并行的设备，在数据并行的情况下，表示模型副本拷贝到哪些GPU上；在模型并行的情况下，表示模型分散在哪些GPU上。
**output_device：**输出结果到哪个GPU上。

注意事项如下：

要使用该 class，需要先对 torch.distributed 进行初进程组始化，可以通过 torch.distributed.init_process_group() 实现。
该 module 仅在 gloo和 nccl后端上可用。

DistributedSampler

torch.utils.data.distributed.DistributedSampler(dataset, 
                                                num_replicas=None, 
                                                rank=None)

主要参数介绍：

**dataset：**采样的数据集
**num_replicas：**参与的总进程数
**rank：**当前机器的rank

DistributedSampler将数据集采样为num_replicas份，不同机器根据自己的rank取数据集的子集。

TIPS：在 DataParallel 中，batch size 设置必须为单卡的 n 倍，但是在 DistributedDataParallel 内，batch size 设置于单卡一样即可。

参考代码如下：

# 分布式训练示例
from torch.utils.data import Dataset, DataLoader
from torch.utils.data.distributed import DistributedSampler
from torch.nn.parallel import DistributedDataParallel

dataset = your_dataset()
datasampler = DistributedSampler(dataset)
dataloader = DataLoader(dataset, batch_size=batch_size_per_gpu, sampler=datasampler)
model = your_model()
model = DistributedDataPrallel(model, device_ids=[local_rank], output_device=local_rank)

torch.distributed.launch

DDP通过torch.distributed.launch辅助实现进程控制。

torch.distributed.launch传入的参数如下：

**training_script：**执行任务脚本路径
**–nnodes：**节点数，即分布式机器数量
**–node_rank：**当前机器的rank序号
**–nproc_per_node：**每个节点开设的进程数量，最好设置为每个机器GPU数量，使每个GPU在一个进程中
**–master_addr：**master 节点（rank 为 0）的地址
**–master_port：**master 节点（rank 为 0）的端口

单机多卡的执行脚本如下：

python -m torch.distributed.launch --nproc_per_node=NUM_GPUS_YOU_HAVE YOUR_TRAINING_SCRIPT.py (--arg1 --arg2 --arg3 and all other arguments of your training script)

多机多卡执行脚本如下：

Node1:
python -m torch.distributed.launch --nproc_per_node=NUM_GPUS_YOU_HAVE --nnodes= NUM_MACHINES_YOU_HAVE --node_rank=0 --master_addr="192.168.1.1" --master_port=1234 YOUR_TRAINING_SCRIPT.py (--arg1 --arg2 --arg3 and all other arguments of your training script)
...
NodeN:
python -m torch.distributed.launch --nproc_per_node=NUM_GPUS_YOU_HAVE --nnodes= NUM_MACHINES_YOU_HAVE --node_rank=N-1 --master_addr="192.168.1.1" --master_port=1234 YOUR_TRAINING_SCRIPT.py (--arg1 --arg2 --arg3 and all other arguments of your training script)

torch.multiprocessing

通过 torch.multiprocessing手动控制进程，替代 torch.distributed.launch的进程控制工作。

涉及的主要接口为：

def spawn(fn, args=(), nprocs=1, join=True, daemon=False, start_method='spawn'):
    r"""Spawns ``nprocs`` processes that run ``fn`` with ``args``.

    If one of the processes exits with a non-zero exit status, the
    remaining processes are killed and an exception is raised with the
    cause of termination. In the case an exception was caught in the
    child process, it is forwarded and its traceback is included in
    the exception raised in the parent process.

    Args:
        fn (function): Function is called as the entrypoint of the
            spawned process. This function must be defined at the top
            level of a module so it can be pickled and spawned. This
            is a requirement imposed by multiprocessing.

            The function is called as ``fn(i, *args)``, where ``i`` is
            the process index and ``args`` is the passed through tuple
            of arguments.

        args (tuple): Arguments passed to ``fn``.
        nprocs (int): Number of processes to spawn.
        join (bool): Perform a blocking join on all processes.
        daemon (bool): The spawned processes' daemon flag. If set to True,
                       daemonic processes will be created.
        start_method (string): (deprecated) this method will always use ``spawn``
                               as the start method. To use a different start method
                               use ``start_processes()``.

    Returns:
        None if ``join`` is ``True``,
        :class:`~ProcessContext` if ``join`` is ``False``

    """

主要参数介绍如下：

fn:处理的主函数
args:传递给主函数的参数，主函数第一个参数默认传入进程index
nprocs:开启的进程数量

结合下列代码介绍torch.multiprocessing多机多卡的使用：

def setup(rank, world_size):
    # dist.init_process_group("gloo", rank=rank, world_size=world_size)
    print("world size:", world_size, " rank:", rank)
    print(os.environ['MASTER_ADDR'])
    print(os.environ['MASTER_PORT'])
    print(os.environ['RANK'])
    print(os.environ['WORLD_SIZE'])
    dist.init_process_group("nccl", rank=rank, world_size=world_size)

def cleanup():
    dist.destroy_process_group()

def main(local_rank, nnodes, args):
    rank = int(os.environ['RANK']) * nnodes + local_rank
    world_size = nnodes * int(os.environ['WORLD_SIZE'])

    print("world size:", world_size, " rank:", rank)
    setup(rank, world_size)
    ……
    # If passed along, set the training seed now.
    if args.seed is not None:
        set_seed(args.seed)
    model = torch.nn.parallel.DistributedDataParallel(model.to(local_rank), device_ids=[local_rank])


if __name__ == "__main__":
    args = parse_args()
    world_size = torch.cuda.device_count()
    print('{}:{}'.format(world_size, '---' * 100))
    mp.spawn(main, args=(world_size, args), nprocs=world_size, join=True)

代码流程的解释如下：

根据**torch.cuda.device_count()**获取单机的显卡数量，决定开启的进程数，即一个world的world_size
mp.spawn开启多进程
单机的进程index即为local_rank，nnodes代表单机显卡数量，os.environ[‘RANK’]获取机器的rank值，通过rank*nnodes + local_rank 计算全局训练的索引，nnodes * int(os.environ[‘WORLD_SIZE’]) 计算全局训练的进程数量
根据计算的全局索引，全局数量初始化进程通信
**model.to(local_rank)**将模型放置于本地单机的显卡上

Accelerate

Hugging Face发布PyTorch新库「Accelerate」：适用于多GPU、TPU、混合精度训练。「Accelerate」提供了一个简单的 API，将与多 GPU 、 TPU 、 fp16 相关的样板代码抽离了出来，保持其余代码不变。PyTorch 用户无须使用不便控制和调整的抽象类或编写、维护样板代码，就可以直接上手多 GPU 或 TPU。

项目地址：https://github.com/huggingface/accelerate

  import torch
  import torch.nn.functional as F
  from datasets import load_dataset
+ from accelerate import Accelerator

- device = 'cpu'
+ accelerator = Accelerator()

- model = torch.nn.Transformer().to(device)
+ model = torch.nn.Transformer()
  optimizer = torch.optim.Adam(model.parameters())

  dataset = load_dataset('my_dataset')
  data = torch.utils.data.DataLoader(dataset, shuffle=True)

+ model, optimizer, data = accelerator.prepare(model, optimizer, data)

  model.train()
  for epoch in range(10):
      for source, targets in data:
-         source = source.to(device)
-         targets = targets.to(device)

          optimizer.zero_grad()

          output = model(source)
          loss = F.cross_entropy(output, targets)

-         loss.backward()
+         accelerator.backward(loss)

          optimizer.step()

模型保存加载：

# 模型保存
accelerator.wait_for_everyone()
unwrapped_model = accelerator.unwrap_model(model)
accelerator.save(unwrapped_model.state_dict(), path)

# 模型加载
unwrapped_model = accelerator.unwrap_model(model)
unwrapped_model.load_state_dict(torch.load(path))

具体代码可以参考huggingface的transformer代码库

项目地址：https://github.com/huggingface/transformers/tree/main/examples/pytorch

参考链接

https://zhuanlan.zhihu.com/p/462453622

https://zhuanlan.zhihu.com/p/98535650

https://zhuanlan.zhihu.com/p/76638962

spiking neural network概念学习 Zaгathustra 科研工作深度学习神经网络机器学习
我们认为，SNNs最大的优势在于其能够充分利用基于时空事件的信息。今天，我们有相当成熟的神经形态传感器，来记录环境实时的动态改变。这些动态感官数据可以与SNNs的时间处理能力相结合，以实现超低能耗的计算。在此类传感器中使用SNNs主要受限于缺乏适当的训练算法，从而可以有效地利用尖峰神经元的时间信息。实际上就精度而言，在大多数学习任务中SNNs的效果仍落后于第二代的深度学习。很明显，尖峰神经元可以实
深度学习（1)-简单神经网络示例 yyc_audio 深度学习人工智能
我们来看一个神经网络的具体实例：使用Python的Keras库来学习手写数字分类。在这个例子中，我们要解决的问题是，将手写数字的灰度图像（28像素×28像素）划分到10个类别中（从0到9）。我们将使用MNIST数据集，图2-1给出了MNIST数据集的一些样本。在机器学习中，分类问题中的某个类别叫作类（class），数据点叫作样本（sample），与某个样本对应的类叫作标签（label）。你不需要现
Python爬虫——网站基本信息 IT·小灰灰 python 爬虫开发语言网络
在智能时代，数据是新的石油。Python爬虫技术赋予了我们成为数据猎人的能力，让我们能够在网络的广袤土地上狩猎，为机器学习和人工智能的发展提供燃料目录一、介绍——Python二、介绍——Python爬虫1.请求库2.解析库3.数据存储4.多线程/多进程5.异步编程6.代理和反爬虫7.爬虫框架8.爬虫的法律和道德问题9.异常处理10.日志记录三、爬虫示例代码一、介绍——PythonPython是一种
Python 自动排班表格（代码分享）趣享先生 Python案例分享专栏 python 开发语言
✅作者简介：2022年博客新星第八。热爱国学的Java后端开发者，修心和技术同步精进。个人主页：JavaFans的博客个人信条：不迁怒，不贰过。小知识，大智慧。当前专栏：Java案例分享专栏✨特色专栏：国学周更-心性养成之路本文内容：Python自动排班表格（代码分享）前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。文章目录前言问题描述解决步骤1
理论一、大模型—概念伯牙碎琴大模型自然语言处理 ai
一、总述大模型通常指的是参数规模庞大、训练难度较高的人工智能模型。随着深度学习技术的发展，研究人员和企业越来越倾向于构建更大的模型，以提高模型的性能和泛化能力。这些大模型往往需要大量的数据和计算资源来训练，并且在实际应用中通常表现出色。大模型全称是大型语言模型（LLM，LargeLanguageModel），这个“大”主要指模型结构容量大，结构中的参数多，用于预训练大模型的数据量大。一个大模型可以
自动驾驶系列—颠覆未来驾驶：深入解析自动驾驶线控转向系统技术学步_技术自动驾驶自动驾驶人工智能机器学习线控系统
欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。探索专栏：学步_技术的首页——持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。技术导航：人工智能：深入探讨人工智能领域核心技术。自动驾驶：分享自动
根据deepseek模型微调训练自动驾驶模型及数据集的思路 ywfwyht 自动驾驶深度学习人工智能自动驾驶人工智能机器学习
以下是使用DeepSeek模型微调训练自动驾驶模型的详细步骤和代码示例。本流程假设你已有自动驾驶领域的数据集（如驾驶指令、传感器数据等），并基于PyTorch框架实现。Step1:环境准备#安装依赖库pipinstalltorchtransformersdatasetsnumpypandasStep2:数据准备假设数据集格式为JSON，包含输入文本（传感器/场景描述）和输出控制指令：//data/
《一文吃透！NLTK与SpaCy，自然语言处理的神兵利器》人工智能深度学习
在人工智能的璀璨星空中，自然语言处理（NLP）无疑是最为耀眼的领域之一。它让机器能够理解、处理和生成人类语言，极大地推动了智能交互的发展。而在Python的NLP工具库中，NLTK和SpaCy就像两把锋利的宝剑，各自散发着独特的光芒。今天，就让我们深入探究这两款工具的使用技巧与优势，为你的NLP之旅增添强大助力。一、NLTK：自然语言处理的瑞士军刀NLTK（NaturalLanguageToolk
Flux架构：构建可预测的Web应用状态管理体系阿珊和她的猫架构前端
前端开发工程师、技术日更博主、已过CET6阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1牛客高级专题作者、打造专栏《前端面试必备》、《2024面试高频手撕题》蓝桥云课签约作者、上架课程《Vue.js和Egg.js开发企业级健康管理项目》、《带你从入门到实战全面掌握uni-app》前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。文章
”人货场”模型搞懂没？数据分析大部分场景都能用！接地气的陈老师人工智能数据分析大数据机器学习推荐系统
做数据分析的同学，很多都听过：人、货、场的分析模型。然而，这东西又是个只闻其名，不见真身的东西。到底该怎么结合实际分析？今天我们系统讲解下。问题场景：某生鲜电商，用户复购率较低，60%的用户在30天内无二次购买行为，运营领导非常着急，要求通过数据分析提升复购率，请问你作为数据分析师该怎么做？建立人工智能精准推荐算法（40%概率用协同过滤，60%用关联分析）把过往6个月月初复购率做成折线图，然后写下
Forrester发布2024年五大网络安全新威胁岛屿旅人网络安全 web安全网络安全网络安全
文章目录前言一、大选年的叙事（舆论）操控攻击二、深度伪造引发身份安全危机三、生成式人工智能数据泄露四、人工智能软件供应链攻击五、太空成为安全战略高点数据泄露平均成本高达218万美元前言人工智能正重塑网络安全格局，武器化大语言模型正成为首选攻击工具，安全团队在应对武器化人工智能攻击方面将面临日益严峻的挑战。Forrester近日发布《2024年网络安全威胁预测报告》指出，人工智能正重塑网络安全格局，
人工智能的本质解构：从二进制桎梏到造物主悖论 Somnolence.·.·.·. 人工智能人工智能 ai
一、数学牢笼中的困兽：人工智能的0-1本质人工智能的底层逻辑是数学暴力的具象化演绎。晶体管开关的物理震荡被抽象为布尔代数的0-1序列，冯·诺依曼架构将思维简化为存储器与运算器的机械对话。即使深度神经网络看似模拟人脑突触，其本质仍是矩阵乘法的迭代游戏——波士顿动力机器人的空翻动作不过是微分方程求解的物理引擎呈现，AlphaGo的围棋神话只是蒙特卡洛树搜索的概率统计。这种基于有限离散数学的架构，注定人
YOLOv11 火焰识别：智能时代的火灾预警新利器星际编程喵 Python探索之旅 YOLO python 目标检测机器学习人工智能开发语言
前言随着人工智能（AI）在各个领域如火如荼发展，图像识别技术也跟着飞速进步。从最初的传统算法到如今的深度学习模型，图像识别在准确性和效率上提升令人惊叹。而在这场技术革命中，YOLO（YouOnlyLookOnce）系列模型无疑扮演举足轻重的角色。今天，我们将目光聚焦在最新的版本——YOLOv11。别误会，YOLOv11可不是什么随便升级。它远不止数字上多了个“1”那么简单。YOLOv11集成许多先
从AI发展史看DeepSeek的崛起：技术革新与生态重构的范式突破 AI软件改变生活 AI资料人工智能 deepseek
Deepseek-R1最新可用网址整理推荐、Deepseek干货资料分享https://blog.csdn.net/ifree_code/article/details/145626999[>>>>>>>>>DeepSeek最新资料包汇总<<<<<<<<]DeepSeek最新资料包汇总https://www.kdocs.cn/l/cq8nbKQzguhC?R=L1MvNDE=人工智能（AI）的发展
【AI中的数学-人工智能的数学基石】AI的心脏：探索人工智能的算法与核心技术云博士的AI课堂 AI中的数学人工智能算法数学 AI数学大模型
第一章人工智能的数学基石第二节AI的心脏：探索人工智能的算法与核心技术人工智能（AI）的迅猛发展离不开其背后的复杂算法与核心技术。这些算法不仅决定了AI系统的性能和能力，也构成了AI应用的基础。从基础的机器学习算法到先进的深度学习模型，AI的算法生态系统丰富多样，涵盖了广泛的数学原理和计算方法。本节将深入探讨驱动AI进步的关键算法与技术，揭示其工作机制及在实际应用中的重要性。一、机器学习：智能的基
农业机器人综述：技术现状、应用场景及未来展望橙蜂智能机器人
农业机器人综述：技术现状、应用场景及未来展望引言一、农业机器人的技术现状1.感知模块2.导航与定位模块3.控制与执行模块4.通信与数据传输模块5.决策与人工智能模块6.电源管理与能源模块二、农业机器人的应用场景1.播种与施肥2.植保与除草3.采摘与收获4.土壤和作物监测5.温室管理与环境控制6.多机器人协作三、农业机器人面临的挑战1.成本较高2.环境适应性差3.技术成熟度有待提高4.数据安全和隐私
文本生成型人工智能：逻辑算法与文字组合的重构艺术 Somnolence.·.·.·. 人工智能人工智能算法重构人机交互 ai chatgpt
引言在数字化浪潮的推动下，文本生成型人工智能（如GPT系列、Claude、Deepseek等）正逐步从技术工具演化为人类社会的"数字镜像"。其本质并非简单的文字堆砌，而是基于算法逻辑对海量语言数据的学习与重组。这一过程既模仿了人类的思维模式，又受制于技术基础设施的物理边界。以下从三个维度解析其运行逻辑与技术哲学。一、数据训练：从概率统计到仿生逻辑的跨越文本生成型AI的核心在于通过神经网络模型对语言
DeepSeek正重构具身大模型和人形机器人赛道！ Robot251 重构机器人人工智能科技自动驾驶
中国人工智能公司DeepSeek（深度求索）以“低成本、高效率、强开放”的研发范式横空出世，火遍并震撼全球科技圈；DeepSeek展现出来的核心竞争力，除了低成本及推理能力，更重要的是开源模型能力追赶上了最新的闭源模型；而对具身智能领域影响最大的当属于其开源大模型DeepSeek-R1。2024年1月20日，公司发布全球首个完全通过强化学习训练的专注于推理任务的高性能语言模型DeepSeek-R1
预测股票走势的ai模型 roxxo AI模型人工智能深度学习金融
AI股票走势预测模型用深度学习+时间序列分析来构建一个股票预测AI，基于历史数据预测未来走势。1.关键功能✅AI选股（基于财务数据+技术指标）✅股票走势预测（LSTM/Transformer）✅智能筛选高增长潜力股✅可视化分析2.关键技术数据来源：YahooFinance/AlphaVantage财务分析：PE、EPS、ROE、PB、成交量机器学习选股：随机森林/XGBoost深度学习预测：LST
SoC 架构设计全面详解：从基础到实战嵌入式Jerry 面试架构系统架构 AI编程 ai 学习
一、SoC是什么？为什么重要？SoC(SystemonChip,片上系统)是一种将计算核心、存储系统、通信接口以及各种外设集成到一个单一芯片上的高度集成解决方案。它在智能手机、汽车电子、人工智能、工业控制等领域扮演着至关重要的角色。为什么SoC如此重要？高集成度：将多个功能模块集成到单个芯片上，减少了PCB板空间，提高了可靠性。高性能低功耗：相比传统多个芯片组合的方式，SoC通过优化设计大幅降低功
清华大学：DeepSeek 如何赋能职场应用（35 页 PDF）伟贤AI之路 AI应用 pdf
原来已经分享过清华大学的DeepSeek：从入门到精通（100页PDF）现在又来第二弹：《DeepSeek如何赋能职场应用？从提示语技巧到多场景应用》PDF里介绍了DeepSeek这一人工智能工具及其在职场中的应用，从基础模型到深度思考模型，再到联网搜索模型，展示了其在不同情境下的强大功能。通过提示语技巧和多场景应用，DeepSeek能够实现人机高效协同，提高工作效率和创作质量。文章不仅讲述了De
DeepSeek推荐未来好就业的十大专业东锋1.3 人工智能 deepseek推荐就业
一、人工智能与数据科学专业聚焦人工智能、大数据技术、计算机科学与技术、机器学习、数据科学与大数据技术等专业，构成了这一前沿领域的核心。这些专业旨在培养学生掌握从数据收集、处理到模型构建、算法优化的全流程能力。就业前景洞察人工智能已广泛渗透到医疗、金融、制造、交通等众多领域。在医疗领域，AI辅助诊断系统帮助医生更精准地识别疾病；金融行业里，智能风控模型有效防范风险。未来，算法工程师负责开发和优化各种
本地DeepSeek模型GGUF文件转换为PyTorch格式搏博 pytorch 人工智能 python 机器学习 windows 深度学习
接前文，我们在本地Windows系统上，基于GGUF文件部署了DeepSeek模型（DeepSeek-R1-Distill-Qwen-1.5B.gguf版本），但是GGUF是已经量化的版本，我们除了对其进行微调之外，无法对其训练，那么还有没有其他办法对本地的GGUF部署的DeepSeek模型进行训练呢？今天我们就反其道而行之，将GGUF文件转换为PyTorch格式再训练。前提：已经部署好了Deep
云计算、大数据、人工智能、物联网、虚拟现实技术、区块链技术 2301_79098963 程序员云计算大数据人工智能
物联网一、物联网的基本概念二、物联网的特征(一)物体感知(二)信息传输(三)智能处理三、物联网关键技术(一)射频识别技术(二)产品电子编码(三)短距离通信技术(四)互联网(五)感知控制技术(六)无线网络技术(七)中间件技术(八)智能处理技术四、物联网的应用领域虚拟现实技术一、VR的基本概念二、VR的特征(一)沉浸性(二)人交互性(三)多感知性(四)想象性(五)自主性三、VR的技术应用(一)在影视娱
2025年大模型与Transformer架构：技术前沿与未来趋势报告和老莫一起学AI transformer 架构深度学习人工智能产品经理学习大模型
_“欧米伽未来研究所”关注科技未来发展趋势，研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将不定期推荐和发布世界范围重要科技研究进展和未来趋势研究。在人工智能的宏大版图中，Transformer架构无疑是一颗璀璨的明星。它的出现，彻底改变了自然语言处理、计算机视觉等诸多领域的发展轨迹。《2025年大模型与Transformer架构：技术前沿与未来趋势报告》深入剖析了Transformer架构的
AI 大模型创业：如何利用市场优势？ SuperAGI2025 计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
AI大模型创业：如何利用市场优势？1.背景介绍随着人工智能技术的不断发展，大模型（LargeModels）在商业化应用中日益受到关注。大模型是指在特定领域中应用广泛、参数量巨大的神经网络模型，如BERT、GPT-3、DALL-E等。这些大模型通过在大规模数据集上进行预训练，具备强大的泛化能力和适应性，能够广泛应用于自然语言处理（NLP）、计算机视觉（CV）、生成对抗网络（GAN）等多个领域。然而，
人工智能推理模型（S1-32B）超越DeepSeek？ deepdata_cn 垂域模型人工智能人工智能大语言模型
S1模型是由斯坦福大学和华盛顿大学的研究团队在李飞飞教授的领衔下开发的人工智能推理模型。从2000年李飞飞进入加州理工学院攻读研究生起，就一直从事人工智能研究，在计算机视觉领域创立了拥有1500万张图片的ImageNet数据库，为人工智能计算机视觉研究奠定了基础，也积累了深厚的人工智能技术理论和实践经验。论文地址：https://arxiv.org/pdf/2501.19393一、发展过程模型采用
使用 pip 和 conda 的安装深度学习环境 ZhengXinTang #深度学习环境 pip conda python
在决定使用pip和conda安装包时，了解这两个包管理器之间的主要区别非常重要。以下是细分：1.在使用conda安装的过程中，可以先参考另外一台机器中对应虚拟环境配置成功的，所设置的镜像源，使用condacofig--show,进行查看，2.设置，将网络下载时，连接时间加长condaconfig--setremote_connect_timeout_secs60condaconfig--setre
如何让DeepSeek成为你的私人客服：DeepSeek接入微信一文全解析万事可爱^ 微信数据库 DeepSeek 大模型代理模式
在人工智能飞速发展的当下，DeepSeek凭借其强大的语言处理能力和智能交互表现，成为众多开发者眼中的得力助手。要是能把DeepSeek接入微信，让它在微信这个日常使用频繁的社交平台上，化身私人客服，随时为用户答疑解惑，那可真是太实用了！今天，就来详细讲讲如何实现这一超酷的操作。前期准备：搭建沟通桥梁的基石注册微信公众号微信公众号有服务号和订阅号两种类型。如果希望获得更多的API权限，能够更全面地
字节跳动实习生和校招生内推飞300 python javascript php 业界资讯算法
机器学习算法实习生-平台治理1、2026届硕士及以上学位在读，计算机等相关专业优先；2、有扎实的代码能力，熟悉深度学习/图神经网络/机器学习框架，如Pytorch、Tensorflow、DGL、Pyg、Sklearn等；3、熟悉机器学习/图学习/序列学习算法中的一项或者多项，如图建模、时序信号建模、节点/子图分类、社区挖掘、表征学习、自监督/半监督学习等，有一定深度和广度；4、熟悉相关算法在数据挖
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

Pytorch多机多卡的多种打开方式

前言

DDP

进程组初始化

TCP初始化

ENV初始化

共享文件系统初始化

DistributedDataParallel

DistributedSampler

torch.distributed.launch

torch.multiprocessing

Accelerate

参考链接

你可能感兴趣的:(pytorch,深度学习,人工智能)