----------------------
分布式、高并发、多线程,似乎是程序员永远逃离不了的3个关键词,只要脱离了单机/单节点,涉及到2个以上的设备,就会碰到分布式。深度学习领域也一样,当你拥有海量数据/巨大模型的训练需求时,即使一张是TESLA V100也可能满足不了性能需求。这时就会扩展为单机多卡、多机多卡的分布式训练....
不管是理论研究还是工程一线,已经出现了很多(只)适合分布式训练的深度学习模型。比如: CV领域,为了将训练ImageNet的时间压缩至最短,腾讯团队曾在2018年,使用了2048块Tesla P40,将ResNet50在ImageNet上的训练时间压缩至6.6分钟,详见论文《Highly Scalable Deep Learning Training System withMixed-Precision: Training ImageNet in Four Minutes》,知乎也有相关报道:4分钟训练ImageNet!腾讯机智创造AI训练世界纪录
NLP领域,更是大模型频出,如BERT、GTP系列。为了训练GPT-2模型,用了256个Google Cloud TPU v3,据说GPT-3的训练更是耗费了N多显卡和1200万美金,知乎上也有相关文章:如何评价1700亿参数的GPT-3? 天下武功,唯快不破,要想快,就必须走分布式训练的路子。现在,各大深度学习框架基本都支持了深度学习模型的分布式训练,那么问题来了: 深度学习的分布式训练的有哪些基本原理? 深度学习的分布式训练有哪些现成的技术和框架? 各大框架的分布式训练上手难易程度如何,训练孰优孰劣?
本系列文章文将对以上问题进行粗浅的回答和总结,权当抛砖引玉,欢迎大家关注和交流!本篇文章重点梳理深度学习分布式训练领域常用的一些技术及概念;下一篇文章将介绍本人有幸参与DLPerf工作时的遇到并解决的各种分布式上手问题(“踩坑指南”)。如有疏漏和不足之处,还请多指点。
单机单卡情况下,信息都在一台机器上,无所谓分发。而分布式训练中,信息是要被“分发”的,分发的不同方式,常被称为“并行方式”。通常,习惯上将分发方分为“数据并行”和“模型并行”两种:
在 数据并行 中,将样本数据进行切分,切分后的数据 被送至各个训练节点,与 完整的模型 进行运算,最后将多个节点的信息进行合并,如下图所示:
在 模型并行 中,将模型进行切分,完整的数据 被送至各个训练节点,与 切分后的模型 进行运算,最后将多个节点的运算结果合并,如下图所示:
灰色表示数据,蓝色表示模型
以GPU的维度来看,数据并行简单来说就是在并行训练的设备上,对完整训练数据进行分片训练,同一个训练的时间间隔内,不同GPU设备上用各自分片的数据对模型进行训练,其后再进行模型梯度的汇总更新和各GPU间的状态同步。这样做的结果就是在一个训练的时间间隔内,各个GPU设备可以并行地用各自分片的数据进行模型训练,从而大大加速了整体模型的训练。
从上图可见,数据并行时,每个GPU设备上保持了同样的模型数据,且一次完整的训练过程包括以下3步:
简单来说,就是加速训练过程,当我们的数据规模越来越大,训练一个完整模型所需的时间越来越长,为了加速训练,我们希望通过分布式训练的方式,通过拓展设备数量来压缩训练时间,达到近乎线性的加速比。数据并行是最常见也最早出现的一种分布式方式,各分布式框架均有容易上手的数据并行接口(但不一定支持下文介绍的模型并行)。
举个线性加速比的栗子? 已知: 假设训练集为128万张的ImageNet;模型为ResNet50;单GPU的显存能支持的最大batch size为128; 迭代1个batch(完成数据加载+前向+反向梯度更新)需要的时间为7.2秒
求: 单个GPU训练100epoch所需时间?
答案: 完成一个epoch需要的时间为1280000/128 * 7.2 = 72000(s),即20小时,迭代100epoch,则在单张GPU上所需的时间是20*100=2000小时,如果用单GPU的方式训练模型,需要耗时间近3个月(头发都掉光了~)
而如果是线性加速比,如果用4台8卡的机器训练,则时间更是缩短至原来的1/32,即2000/32=62.5小时(还是可以接受的)。
线性加速比是利用分布式做横向扩展的理想状态,实际上,如果框架设计或实现上不合理,会使得加速比大大低于理论值,造成“大幅度增加了机器但是并没有大幅度提高训练速度”的尴尬局面。
模型并行和数据并行类似,将整个模型的不同网络层(或者某一层)的参数矩阵切分至不同的GPU设备上,进行模型训练的过程。
从上图可知,模型并行时,完整的模型网络切分到了不同设备:GPU0和GPU1,且训练过程分为如下几步:
某些情况下,模型规模特别巨大,参数特别多以至于单个GPU的显存塞不下(譬如某些分类网络/人脸模型由于num_classes特别大,导致最后FC全连接层的参数量巨大),于是只能通过模型并行的方式进行训练,即将模型的各网络层甚至是某一层的参数矩阵划分至多张GPU上进行训练。
当然,除了常见的数据并行、模型并行以外,还有数据-模型混合并行,流水并行等其他并行方式,本系列文章侧重数据并行模型训练。
分布式框架采用的常见底层支撑库,可以归类为以下三类:
本文将主要介绍分布式深度学习中集合通信相关的概念以及常用的集合通信库(Open MPI、NCCL、Gloo)。
何为集合通信(Collective communication)? 要说集合通信,首先得了解P2P点对点通信(Point-to-point)。P2P通信通常为两个不同进程间的通信,是1对1的; 在MPI规范中,既有同步阻塞的P2P接口:MPI_send和MPI_Recv接口,也定义了非阻塞的P2P接口如:MPI_Isend、MPI_Irecve。
和P2P通信相对应,集合通信则是1对多或是多对多的。在分布式系统中,各个节点间往往存在大量的集合通信需求,而我们可以用消息传递接口(Message Passing Interface, MPI)来定义一些比较底层的消息通信行为譬如Reduce、Allreduce、Scatter、Gather、Allgather等。
MPI作为高性能计算领域的元老和通信标准,定义了一系列的通信接口,其上层可以由多种编程语音实现(如c/c++、fortran、java..),有一些比较流行的通信库实现如:MPICH2、OpenMPI,这些通信库用不同的代码/算法实现了MPI的接口定义的通信模式。其中常用的通信模式有:
下面,我们通过文字和示意图对其中的一些作简单讲解。
在集合通信中,如果某个节点想把自身的数据发送到集群中的其他节点,那么就可以使用广播Broadcast的操作(对应MPI_Bcast接口)。
下面我们通过示意图看一下“广播”的具体过程:圆圈表示分布式系统中的独立节点(进程),如下图的0~3,共4个节点;小方块则代表了数据,颜色相同表示数据一样。
broadcast代表了一种广播的行为,执行broadcast时,数据从主节点广播至其他各个指定的节点;和broadcast类似,scatter表示一种散播行为,将主节点的数据划分散布至其他指定的节点。
reduce称为规约运算,是一系列运算操作的统称,细分来说包括SUM、MIN、MAX、PROD、LOR等。reduce意为减少/精简,因为其操作在每个进程上获取一个输入元素数组,通过执行操作后,将得到精简的更少的元素。例如下面的Reduce sum:
reduce是一系列操作的统称,all reduce则是在所有的节点进程上都应用同样的reduce操作。 All reduce sum:
从图中可以看出,all reduce操作可通过单节点上reduce+broadcast操作完成。
更多mpi相关的教程请参考: https://mpitutorial.com/tutorials/mpi-introduction/zh_cn/
分布式系统中因为面临大量的信息同步、更新需求,因此传统的点对点的通信方式不能很好的满足需求。上世纪90年代针对HPC领域定义了一套集合通信相关的接口标准,称为 MPI,其中常用的集合通信模式(broadcast、gather、allreduce..)深刻地影响着后续的分布式通信库的实现。
时至今日,作为分布式深度学习框架的底层支撑库,几大集合通信库(如:Open MPI、Gloo、NCCL等)都在MPI的基础上,对各种集合通信的模式和算法作了各自的实现。
借用官网描述:Open MPI项目是一个开源MPI(消息传递接口 )实现,由学术,研究和行业合作伙伴联盟开发和维护。因此,Open MPI可以整合高性能计算社区中所有专家,技术和资源,以构建可用的最佳MPI库。
Gloo是facebook开源的一套集体通信库,他提供了对机器学习中有用的一些集合通信算法如:barrier, broadcast, allreduce
NCCL是英伟达基于NCIDIA-GPU的一套开源的集体通信库,如其官网描述:NVIDIA集体通信库(NCCL)实现了针对NVIDIA GPU性能优化的多GPU和多节点集体通信原语。NCCL提供了诸如all-gather, all-reduce, broadcast, reduce, reduce-scatter等实现,这些实现优化后可以通过PCIe和NVLink等高速互联,从而实现高带宽和低延迟。 因为NCCL则是NVIDIA基于自身硬件定制的,能做到更有针对性且更方便优化,故在英伟达硬件上,NCCL的效果往往比其它的通信库更好。
分布式深度学习框架的开发者和使用者,可能最关心是集合通信库里的 Allreduce 操作,因为它的使用频率最高,也最必须。我们先介绍下为何 Allreduce 操作对于深度学习框架如此重要:
在1.1节,我们知道了数据并行训练的主要过程大致分为3步:
我们可以看见,第3步梯度同步更新包含从各节点收集梯度、汇总、更新至每一节点的全部过程,这些组合起来就是一个all reduce的过程,具体点说是all reduce sum操作。通过all reduce sum,各自节点更新的梯度值汇总后,再更新至每一个节点。由此可见,深度学习的分布式训练和all reduce的关系是十分紧密的。 那以上介绍的通信框架,他们的all_reduce 表现各自如何呢?请看下文介绍。
Open MPI的实现里,有各种各样的all reduce算法,在最新的OpenMPI-4.0.5的代码中(openmpi-4.0.5/ompi/mca/coll/tuned/coll_tuned_allreduce_decision.c),我们可以看到有7种不同的all reduce算法实现:
{0, "ignore"},
{1, "basic_linear"},
{2, "nonoverlapping"},
{3, "recursive_doubling"},
{4, "ring"},
{5, "segmented_ring"},
{6, "rabenseifner"},
其中,ring all reduce算法是在深度学习分布式训练环境下比较优秀的一种all reduce算法,关于这些算法的更具体的比较和分析,可以参考:腾讯机智团队分享--AllReduce算法的前世今生
英伟达于2015年公开发布NCCL,一个开源的、基于自身硬件的开源的集合通信库实现。其算法基本实现原理,和mpi的实现是基本类似的,由于其完全基于自家硬件,可以进行充分的优化,所以基于nvidia-gpu时,使用nccl性能是很强的,真香!
NCCL的实现参考了MPI接口,定义了一系列名称不同但功能类似的通信方法。针对GPU部分常用的接口做了比较大的优化,一些其他的则没有实现,有点类似于MPI的一个对GPU通信支持的很强的子集。具体可以参考英伟达自己的说明 NCCL and MPI。
简单总结就是:
随着NVIDIA-GPU的普及以及NCCL出色的性能,各大深度学习框架基本都添加了对NCCL的支持,并推荐NCCL作为分布式训练中的集合通信后端。
Gloo是facebook开源的用于机器学习任务中的集合通信库,其实现了一些常见的Allreduce算法:
除此之外,Gloo还有一系列基于CUDA-aware为目的的Allreduce实现:
参考: Gloo官方仓库:algorithms
截至目前,Tensorflow(2.3)中尚未添加对Gloo作为集合通信后端的支持,Pytorch(1.7)支持Gloo作为集合通信后端的,但仅推荐在分布式CPU环境下使用,在分布式GPU环境下,Pytorch官方推荐使用NCCL作为后端,详见:DISTRIBUTED COMMUNICATION PACKAGE - TORCH.DISTRIBUTED
分布式深度学习的通信库选择目前比较通用的是基于MPI的实现(如OpenMPI)、NVIDIA的NCCL实现,如果是在使用NVIDIA-硬件的情况下,主流的选择是NVIDIA自家的NCCL。
关于NCCL、OpenMPI、Gloo的Allreduce对比,可以参考开源项目mlbench-benchmarks。该项目使用pytorch框架,在相同的GPU及软硬件环境一致的情况下,对NCCL、OpenMPI、Gloo三种通信库的Allreduce作了性能测试。
各节点间Allreduce通信时间和发送Tensor尺寸的曲线关系图:
结论是:
更多介绍和对比可以参考:Communication Backends, Raw performance benchmarking
除了上文介绍的通信库中的all_reduce外,还有其它的通信库,也实现了 Allreduce 算法,虽然相对小众,但是在特定的方面有较大的性能提升。在此以一并介绍。
尽管在MPI的各种实现中(譬如OpenMPI),很早就有了优秀的Ring All reduce算法,不过将其引入到深度学习中,还是百度首创的。百度2016年在论文:Bringing HPC Techniques to Deep Learning中介绍了一种来自高性能分布式计算中的概念——Ring All reduce,并将其引入了深度学习(给tensorflow贡献了代码,增加了基于mpi源语实现的ring all reduce),且获得了显著的性能提升。
可参考 知乎:[翻译] Bringing HPC Techniques to Deep Learning 代码: https://github.com/baidu-research/baidu-allreduce
《Two-Tree Algorithms for Full BandwidthBroadcast, Reduction and Scan》 double binary tree于2009年在MPI中引入,并随后在NCCL2.4中也引入了此实现:https://developer.nvidia.com/blog/massively-scale-deep-learning-training-nccl-2-4/#ref3
《Highly Scalable Deep Learning Training System with Mixed-Precision: Training ImageNet in Four Minutes》
《Blink: Fast and Generic Collectives for Distributed ML》
《BlueConnect: Decomposing All-Reduce for Deep Learning on Heterogeneous Network Hierarchy》
最后,安利一下我最近参与的工作——DLPerf仓库。里面包含了以上各个框架的速度评测,以及详细的README,让你可以轻松复现、跑起来各框架的分布式多机。后面的文章,也会详细介绍DLPerf仓库的工作和踩坑经验分享,欢迎交流和关注。