Wanderer001

torch.distributed

参考 torch.distributed.init_process_group() - 云+社区 - 腾讯云

后端

PyTorch自带的后端

使用哪个后端？

常见的环境变量

基础

初始化

torch.distributed.is_available()[source]

torch.distributed.init_process_group(backend, init_method=None, timeout=datetime.timedelta(0, 1800), world_size=-1, rank=-1, store=None, group_name='')[source]

class torch.distributed.Backend

torch.distributed.get_backend(group=)[source]

torch.distributed.get_rank(group=)[source]

torch.distributed.get_world_size(group=)[source]

torch.distributed.is_initialized()[source]

torch.distributed.is_mpi_available()[source]

torch.distributed.is_nccl_available()[source]

TCP初始化

共享文件系统初始化

环境变量初始化

组

torch.distributed.new_group(ranks=None, timeout=datetime.timedelta(0, 1800), backend=None)[source]

点对点通信

torch.distributed.send(tensor, dst, group=, tag=0)[source]

torch.distributed.recv(tensor, src=None, group=, tag=0)[source]

torch.distributed.isend(tensor, dst, group=, tag=0)[source]

torch.distributed.irecv(tensor, src, group=, tag=0)[source]

同步和异步收集操作

收集函数

torch.distributed.broadcast(tensor, src, group=, async_op=False)[source]

torch.distributed.all_reduce(tensor, op=ReduceOp.SUM, group=, async_op=False)[source]

torch.distributed.reduce(tensor, dst, op=ReduceOp.SUM, group=, async_op=False)[source]

torch.distributed.all_gather(tensor_list, tensor, group=, async_op=False)[source]

torch.distributed.gather(tensor, gather_list=None, dst=0, group=, async_op=False)[source]

torch.distributed.scatter(tensor, scatter_list=None, src=0, group=, async_op=False)[source]

torch.distributed.reduce_scatter(output, input_list, op=ReduceOp.SUM, group=, async_op=False)[source]

torch.distributed.all_to_all(output_tensor_list, input_tensor_list, group=, async_op=False)[source]

torch.distributed.barrier(group=, async_op=False)[source]

class torch.distributed.ReduceOp

class torch.distributed.reduce_op[source]

多GPU收集函数

torch.distributed.broadcast_multigpu(tensor_list, src, group=, async_op=False, src_tensor=0)[source]

torch.distributed.all_reduce_multigpu(tensor_list, op=ReduceOp.SUM, group=, async_op=False)[source]

torch.distributed.reduce_multigpu(tensor_list, dst, op=ReduceOp.SUM, group=, async_op=False, dst_tensor=0)[source]

torch.distributed.all_gather_multigpu(output_tensor_lists, input_tensor_list, group=, async_op=False)[source]

torch.distributed.reduce_scatter_multigpu(output_tensor_list, input_tensor_lists, op=ReduceOp.SUM, group=, async_op=False)[source]

后端

torch.distributed支持三种后端，每个都有不同的能力，下表展示了那个函数对使用CPU/CUDA张量是可以得到的。MPI只有在构建PyTorch的实现支持CUDA时才支持它。

PyTorch自带的后端

Pytorch分布式现在仅仅支持Linux。默认地，用Gloo和NCLL后端用来构建，并且包含在Pytorch分布式中(NCCL仅仅使用CUDA时才构筑)。MPI是一个可选的后端，并且仅仅在如果你从Pytorch源中构建时才包含。(例如，在一个MPI已经安装的Host上构建Pytorch。)

使用哪个后端？

过去，我们经常问：“我应该使用哪个后端？”

经验法则

GPU的分布式训练使用NCCL后端

CPU分布式训练使用Gloo后端

GPU host使用无限制宽带互连：

使用NCCL，因为它是目前唯一支持无限制宽带和GPUDirect的后端。

GPU hosts使用以太网互连：

使用NCCL，因为它目前提供最佳分布式GPU训练性能，特别对于多进程单点或者多点分布式训练。如果你遇到任何NCCL的问题，使用Gloo作为应急计划选项。(注意对于GPU目前Gloo比NCCL运行的慢)

CPU hosts用无限制带宽连接：

如果无限制带宽支持IB上的IP，使用Gloo，否则，使用MPI作为替代，我们计划在即将更新的版本中加入Gloo的无限制带宽支持。
CPU hosts with Ethernet interconnect

用以太网连接的GPU：

Use Gloo, unless you have specific reasons to use MPI.
使用Gloo，除非你有特殊的原因需要使用MPI。

常见的环境变量

选择要使用的网络接口

默认的，NCCL和Gloo后端都会尝试尽力选择正确的网络接口来使用。如果自动检测到的接口不正确，你可以使用下面的环境变量来重写：

NCCL_SOCKET_IFNAME, for example export NCCL_SOCKET_IFNAME=eth0
GLOO_SOCKET_IFNAME, for example export GLOO_SOCKET_IFNAME=eth0

如果你使用Gloo后端，你可以通过用逗号分隔它们来指定一个多借口而，比如export GLOO_SOCKET_IFNAME=eth0,eth1,eth2,eth3。后端将会在这些接口上以循环的方式派遣操作。在这些变量中所有进程指定相同的接口号很重要。

Other NCCL environment variables

其他NCCL环境变量。

NCCL提供了大量的环境变量来微调这个目的。

通常使用下面用来debugging目的中的一个：

export NCCL_DEBUG=INFO
export NCCL_DEBUG_SUBSYS=ALL

对NCCL环境变量的全部列表，请参考NVIDIA NCCL’s official documentation

基础

torch.distributed包提供Pytorch支持和通信基元，对多进程并行，在一个或多个机器上运行的若干个计算阶段。类torch.nn.parallel.DistributedDataParallel() 基于此功能来提供同步式分布式训练，作为任何Pytorch模块的包裹器。这和Multiprocessing package - torch.multiprocessing 和torch.nn.DataParallel()提供的并行式不同，它支持多网络连接的机器，对每个进程使用者必须明确的启动一个主训练脚本的一个分开的副本。

在单个机器同步的情况下，torch.distributed或者torch.nn.parallel.DistributedDataParallel()包裹器，相对于其他数据并行的方法包括torch.nn.DataParallel()依然有很大的优势：

在每次迭代时每个进程保持自己的优化器并且执行一个完全的优化步骤。同时这也许会出现冗余，因为梯度已经聚合在一起，并且平均到进程上，因此对每个进程都是一样的，这意味着不需要无参数广播步骤，减少了张量和节点之间的时间花费。
每个进程进程包含一个独立的Pytorch解释器，消除额外的解释器超出。来自执行若干执行线程的GIL-thrashing，模型复制或来自单个Python进程的GPUs。这对模型特别重要使得Python的运行时间能够大量使用，包括使用循环成的模型或者许多小的组件。

初始化

在调用任何方法之前，这个包需要使用torch.distributed.init_process_group()来进行初始化。这将阻塞，直到所有进程都已加入。