OneFlow深度学习框架

【深度学习】— 分布式训练常用技术总结

概述

分布式、高并发、多线程，似乎是一个程序员永远逃离不了的3个关键词，只要脱离了单机/单节点，涉及到2台以上的机器，就会碰到分布式。深度学习领域也一样，当你拥有海量数据/巨大模型的训练需求时，即使你拥有一台8块TESLA V100的服务器，仍显不够，为了加速训练，自然地拓展为2机、4机甚至更多机器节点的分布式训练…
CV领域，为了将训练ImageNet的时间压缩至最短，腾讯团队曾在2018年，使用了2048块Tesla P40，将ResNet50在ImageNet上的训练时间压缩至6.6分钟，详见论文《Highly Scalable Deep Learning Training System withMixed-Precision: Training ImageNet in Four Minutes》，知乎也有相关报道：4分钟训练ImageNet！腾讯机智创造AI训练世界纪录
![tm.png](https://img-blog.csdnimg.cn/img_convert/954d9339bbaccc422b5e0637cd7107aa.png#align=left&display=inline&height=733&margin=[object Object]&name=tm.png&originHeight=733&originWidth=1105&size=175836&status=done&style=none&width=1105)
NLP领域，更是大模型频出，如BERT、GTP系列。为了训练GPT-2模型，用了256个Google Cloud TPU v3，据说GPT-3的训练更是耗费了N多显卡和1200万美金，知乎上也有相关文章：如何评价1700亿参数的GPT-3？
天下武功，唯快不破，要想快，就必须走分布式训练的路子。现在，各大深度学习框架基本都支持了深度学习模型的分布式训练，那么问题来了：深度学习的分布式训练究竟使用了哪些技术和框架，原理又是什么？各大框架的分布式训练上手难易程度如何，训练孰优孰劣，加速比如何？

本系列文章文将对以上问题进行粗浅的回答和总结，权当抛砖引玉，欢迎大家关注和交流！其中**本篇文章重点梳理深度学习分布式训练领域常用的一些技术及概念；下一篇文章将着重梳理各框架的分布式接口，使用方法及测评速度对比。**如有疏漏和不足之处，还请多指点。最后，**安利一下我们最近的工作——DLPerf仓库。**里面包含了以上各个框架的速度评测，以及详细的ReadMe，让你可以轻松复现、跑起来各框架的分布式多机。

1.数据并行or模型并行

通常，深度学习领域的分布式模型训练主要有以下两种方式：

数据并行(Data Parallel)
模型并行(Model Parallel)

数据并行图示

在 数据并行 中，将样本数据进行切分，切分后的数据 被送至各个训练节点，与 完整的模型 进行运算，最后将多个节点的信息进行合并，如下图所示：
![](https://img-blog.csdnimg.cn/img_convert/0fcf954f2680319ad79df08165c078d7.png#align=left&display=inline&height=508&margin=[object Object]&originHeight=508&originWidth=1720&size=0&status=done&style=none&width=1720)

模型并行图示

在 模型并行 中，将模型进行切分，完整的数据 被送至各个训练节点，与 切分后的模型 进行运算，最后将多个节点的运算结果合并，如下图所示：
![](https://img-blog.csdnimg.cn/img_convert/2aa37c33638c628028110388d62ab05d.png#align=left&display=inline&height=522&margin=[object Object]&originHeight=522&originWidth=1785&size=0&status=done&style=none&width=1785)

灰色表示数据，蓝色表示模型

1.1 数据并行

什么是数据并行？

以GPU的维度来看，数据并行简单来说就是在并行训练的设备上，对完整训练数据进行分片训练，同一个训练的时间间隔内，不同GPU设备上用各自分片的数据对模型进行训练，其后再进行模型梯度的汇总更新和各GPU间的状态同步。这样做的结果就是在一个训练的时间间隔内，各个GPU设备可以并行地用各自分片的数据进行模型训练，从而大大加速了整体模型的训练。
![数据并行.png](https://img-blog.csdnimg.cn/img_convert/e9602bb39290f34b99fffa5527c0a590.png#align=left&display=inline&height=623&margin=[object Object]&name=数据并行.png&originHeight=623&originWidth=1027&size=67432&status=done&style=none&width=1027)
从上图可见，数据并行时，每个GPU设备上保持了同样的模型数据，且一次完整的训练过程包括以下3步：
1.CPU负责将不同的训练数据（mini-batch）分别喂给GPU0和GPU1设备；
2.不同的显卡设备上存储了完全一致的模型，通过mini-batch数据进行了前向和反向传播；
3.位于不同GPU设备上的模型进行权重同步和更新

为什么需要数据并行？

简单来说，天下武功唯快不破，当我们的数据规模越来越大，训练一个完整模型所需的时间越来越长，为了加速训练，我们通常不会用单个GPU设备进行训练，而是采用单机多卡(GPU)、多机多卡的方式进行模型训练。即我们希望通过分布式训练的方式，通过拓展设备数量来压缩训练时间，达到近乎线性的加速比。
举个栗子？已知：
假设训练集为128万张的ImageNet；模型为ResNet50；单GPU的显存能支持的最大batch size为128；
迭代1个batch（完成数据加载+前向+反向梯度更新）需要的时间为7.2秒，且GPU设备越多速度越快(线性加速)
求：
单个GPU训练1个epoch、100epoch所需时间？单机8卡(GPU)呢？4机×10卡呢？
答案：
完成一个epoch需要的时间为1280000/128 * 7.2 = 72000(s)，即20小时，迭代100epoch，则在单张GPU上所需的时间是20*100=2000小时，如果用单GPU的方式训练模型，需要耗时间近3个月（头发都掉光了～）

1机8卡，则训练时间理论上仅为原来的1/8；如果用4台8卡的机器（多机多卡数据并行）训练，则时间更是缩短至原来的1/32，即2000/32=62.5小时（还是可以接受的）。

大多数情况下，我们使用数据并行的方式来进行分布式模型训练。在此种方式下，我们希望通过更多的GPU或机器节点来加速模型训练，目标是通过横向拓展，达到理想情况下的线性加速比。

1.2 模型并行

什么是模型并行？

模型并行和数据并行类似，将整个模型的不同网络层(或者某一层)的参数矩阵切分至不同的GPU设备上，进行模型训练的过程。
![模型并行.png](https://img-blog.csdnimg.cn/img_convert/1ee076e02ae5c0e77ae02c649789505a.png#align=left&display=inline&height=598&margin=[object Object]&name=模型并行.png&originHeight=598&originWidth=993&size=64953&status=done&style=none&width=993)
从上图可知，模型并行时，完整的模型网络切分到了不同设备：GPU0和GPU1，且训练过程分为如下几步：
1.mini-batch喂送给GPU0；
2.数据在GPU0所在网络上进行前向过程；
3.上一步的数据继续喂给GPU1并在GPU1的网络上继续进行前向；
4.GPU1进行反向；
5.反向数据回传给GPU0，继续进行反向；
可见，模型并行时，并不需要进行各个设备上模型权重参数的同步更新，而是会有中间数据在各个GPU上的模型之间流动。

为什么需要模型并行？

少数情况下，模型规模特别巨大，参数特别多以至于单个GPU的显存塞不下（譬如某些分类网络/人脸模型由于num_classes特别大，导致最后FC全连接层的参数量巨大），于是只能通过模型并行的方式进行训练，即将模型的各网络层甚至是某一层的参数矩阵划分至多张GPU上进行训练。

当然，除了常见的数据并行、模型并行以外，还有数据-模型混合并行，流水并行等其他并行方式，本系列文章重点内容为分布式下的数据并行模型训练。

2.分布式下的集合通信(Collective communication)

何为集合通信(Collective communication)？要说集合通信，首先得了解P2P点对点通信(Point-to-point)。P2P通信通常为两个不同进程间的通信，是1对1的；相应的，集合通信则是1对多或是多对多的。在分布式系统中，各个节点间往往存在大量的集合通信需求，而我们可以用消息传递接口(Message Passing Interface, MPI)来定义一些比较底层的消息通信行为譬如Reduce、All reduce、Scatter、Gather等。

MPI 的历史简介

在 90 年代之前，程序员可没我们这么幸运。对于不同的计算架构写并发程序是一件困难而且冗长的事情。当时，很多软件库可以帮助写并发程序，但是没有一个大家都接受的标准来做这个事情。
在当时，大多数的并发程序只出现在科学和研究的领域。最广为接受的模型就是消息传递模型。什么是消息传递模型？它其实只是指程序通过在进程间传递消息（消息可以理解成带有一些信息和数据的一个数据结构）来完成某些任务。在实践中，并发程序用这个模型去实现特别容易。举例来说，主进程（manager process）可以通过对从进程（worker process）发送一个描述工作的消息来把这个工作分配给它。另一个例子就是一个并发的排序程序可以在当前进程中对当前进程可见的（我们称作本地的，locally）数据进行排序，然后把排好序的数据发送的邻居进程上面来进行合并的操作。几乎所有的并行程序可以使用消息传递模型来描述。
由于当时很多软件库都用到了这个消息传递模型，但是在定义上有些微小的差异，这些库的作者以及一些其他人为了解决这个问题就在 Supercomputing 1992 大会上定义了一个消息传递接口的标准- 也就是 MPI。这个标准接口使得程序员写的并发程序可以在所有主流的并发框架中运行。并且允许他们可以使用当时已经在使用的一些流行库的特性和模型。
到 1994 年的时候，一个完整的接口标准定义好了（MPI-1）。我们要记住 MPI 只是_一个接口的定义而已。然后需要程序员去根据不同的架构去实现这个接口。很幸运的是，仅仅一年之后，一个完整的 MPI 实现就已经出现了。在第一个实现之后，MPI 就被大量地使用在消息传递应用程序中，并且依然是写这类程序的_标准（de-facto）。
![](https://img-blog.csdnimg.cn/img_convert/137edb64f6c781bd14cf84a386e4e2c5.png#align=left&display=inline&height=246&margin=[object Object]&originHeight=246&originWidth=320&size=0&status=done&style=none&width=320)
第一批 MPI 程序员的一个真实写照

引用自：https://mpitutorial.com/tutorials/mpi-introduction/zh_cn/

MPI作为高性能计算领域的元老和通信标准，定义了一系列的通信接口，其上层可以由多种编程语音实现(如c/c++、fortran、java…)，有一些比较流行的通信库实现如：MPICH2、OpenMPI，这些通信库用不同的代码/算法实现了MPI的接口定义的通信模式。其中常用的通信模式有：

Send
Receive
Broadcast
Scatter
Gather
Reduce
All reduce

下面，我们通过文字和示意图对其中一些通信模式作简单讲解，插图来自：https://mpitutorial.com/tutorials/

2.1集合通信

通常，作为算法开发者，只需要了解各个框架提供的上层api，能进行分布式模型训练即可；不过作为框架开发者，了解一下常见的集合通信模式/算法，绝对是很有必要的，因为常用的分布式通信库如OpenMPI、NCCL等，本质上都是基于MPI接口实现了一系列算法，使得分布式情况下的节点间能快速地进行通信和数据传输。

Send&Receive

在MPI中既有同步阻塞的消息发送、接收接口，如：MPI_send和MPI_Recv，也有非阻塞(nonblocking)接口如MPI_Isend和MPI_Irecve。这些接口定义了P2P通信模式中的发送和接收方法。作为MPI中最为基础的通信接口，其底层可以走不同的通信协议来传输（也可人为指定）。

需要说明的是，Send&Receive属于P2P通信，把它单独介绍的原因在于它们很基础，很多集合通信实现是可以通过Send&Receive的组合来完成。

Broadcast&Scatter

圆圈表示分布式系统中的独立节点（进程），如上图的0~3，共4个节点；小方块则代表了数据，颜色相同表示数据一样。
![image.png](https://img-blog.csdnimg.cn/img_convert/4369e3b0e3b4c63ec73114e6db539587.png#align=left&display=inline&height=340&margin=[object Object]&name=image.png&originHeight=340&originWidth=287&size=22405&status=done&style=none&width=287)

broadcast代表了一种广播的行为，执行broadcast时，数据从主节点广播至其他各个指定的节点；和broadcast类似，scatter表示一种散播行为，将主节点的数据划分散布至其他指定的节点。

Gather

![image.png](https://img-blog.csdnimg.cn/img_convert/480f4f26b4b24ffa8e35636d80f1c2ce.png#align=left&display=inline&height=154&margin=[object Object]&name=image.png&originHeight=154&originWidth=280&size=10831&status=done&style=none&width=280)
gather行为和scatter行为相反，对应的是收集，执行gather的节点将会从其他指定节点收集相应的数据。

All gather

![image.png](https://img-blog.csdnimg.cn/img_convert/704a0b1e7539348483cc778dd91ecb3f.png#align=left&display=inline&height=169&margin=[object Object]&name=image.png&originHeight=169&originWidth=211&size=12762&status=done&style=none&width=211)
all gather则是加强版的gather，将使得每个节点都执行一次gather行为

Reduce

reduce称为规约运算，是一系列运算操作的统称，细分来说包括SUM、MIN、MAX、PROD、LOR等。reduce意为减少/精简，因为其操作在每个进程上获取一个输入元素数组，通过执行操作后，将得到精简的更少的元素。例如下面的Reduce sum：

![image.png](https://img-blog.csdnimg.cn/img_convert/94a8d8585c413e515c2c3fcc18cfb330.png#align=left&display=inline&height=222&margin=[object Object]&name=image.png&originHeight=222&originWidth=505&size=15791&status=done&style=none&width=505)
![image.png](https://img-blog.csdnimg.cn/img_convert/6bb3cc376100068e573b2159f8421803.png#align=left&display=inline&height=222&margin=[object Object]&name=image.png&originHeight=222&originWidth=505&size=16702&status=done&style=none&width=505)

All reduce

reduce是一系列操作的统称，all reduce则是在所有的节点进程上都应用同样的reduce操作。
All reduce sum：
![image.png](https://img-blog.csdnimg.cn/img_convert/3b2023e75f73bd3a158e6af228119ead.png#align=left&display=inline&height=222&margin=[object Object]&name=image.png&originHeight=222&originWidth=505&size=17524&status=done&style=none&width=505)
从图中可以看出，all reduce操作可通过单节点上reduce+broadcast操作完成。

2.2通信库

Open MPI

借用官网描述：Open MPI项目是一个开源MPI（消息传递接口）实现，由学术，研究和行业合作伙伴联盟开发和维护。因此，Open MPI可以整合高性能计算社区中所有专家，技术和资源，以构建可用的最佳MPI库。

Gloo

Gloo是facebook开源的一套集体通信库，他提供了对机器学习中有用的一些集合通信算法如：barrier, broadcast, allreduce

NCCL

NCCL是英伟达基于NCIDIA-GPU的一套开源的集体通信库，如其官网描述：NVIDIA集体通信库（NCCL）实现了针对NVIDIA GPU性能优化的多GPU和多节点集体通信原语。NCCL提供了诸如all-gather, all-reduce, broadcast, reduce, reduce-scatter等实现，这些实现优化后可以通过PCIe和NVLink等高速互联，从而实现高带宽和低延迟。

因为MPI针对的是通用的分布式环境，而NCCL则是NVIDIA基于自身硬件定制的，能做到更有针对性且更方便优化，故在英伟达硬件上，NCCL的效果往往比传统的MPI更好。

Horovod

Horovod其实不是通信库，利用底层通信库包装的一套，适用于深度学习分布式训练的框架。
Horovod是Uber开源的，针对TensorFlow，Keras，PyTorch和Apache MXNet的分布式深度学习训练框架Horovod的目标是使分布式深度学习快速且易于使用，其底层支持mpi、gloo或者nccl进行数据通信。通常，在nvidia-gpu上，使用horovod+nccl的组合，能使深度学习的分布式训练达到较高的性能和加速比，尽管Horovod的出现已经大大方便了在深度学习中进行分布式训练，然而要支持horovod，除了需要安装mpi、nccl等通信库外，还是需要手动改一些模型训练的代码。

3.分布式训练和All reduce

3.1 二者关系？

![数据并行.png](https://img-blog.csdnimg.cn/img_convert/e9602bb39290f34b99fffa5527c0a590.png#align=left&display=inline&height=623&margin=[object Object]&name=数据并行.png&originHeight=623&originWidth=1027&size=67432&status=done&style=none&width=1027)
在1.1节，我们知道了一个分布式深度学习（数据并行）训练的主要过程大致分为3步：

**数据划分 **

 不同GPU设备上划分出不同的mini-batch，作为训练的数据集

**前向+反向 **

 不同GPU设备上用相同的模型，用各自接收到的mini-batch数据进行训练（前向和反向传播)

梯度同步更新

 每个GPU设备得到了mini-batch训练后的权重值，这些值需要汇总然后更新至每一个GPU设备，保证每一次迭代后，每个GPU设备上的模型完全一致。

我们可以看见，第3步梯度同步更新包含从各节点收集梯度、汇总、更新至每一节点的全部过程，这些组合起来就是一个all reduce的过程，具体点说是all reduce sum操作。通过all reduce sum，各自节点更新的梯度值汇总后，再更新至每一个节点。由此可见，深度学习的分布式训练和all reduce的关系是十分紧密的。

3.2 All reduce哪家强？

3.2.1 OpenMPI

MPI的实现里，有各种各样的all reduce算法，在最新的OpenMPI-4.0.5的代码中(openmpi-4.0.5/ompi/mca/coll/tuned/coll_tuned_allreduce_decision.c)，我们可以看到有7种不同的all reduce算法实现：

 {
     0, "ignore"},
    {
     1, "basic_linear"},
    {
     2, "nonoverlapping"},
    {
     3, "recursive_doubling"},
    {
     4, "ring"},
    {
     5, "segmented_ring"},
    {
     6, "rabenseifner"},

![all-reduce-alg.png](https://img-blog.csdnimg.cn/img_convert/d44df1fa75f63f65d7e3abd531ffc37e.png#align=left&display=inline&height=953&margin=[object Object]&name=all-reduce-alg.png&originHeight=953&originWidth=941&size=177126&status=done&style=none&width=941)
在深度学习分布式训练环境下，ring all reduce算法是比较优秀的，能充分利用节点带宽，降低时间。关于这些算法的更具体的比较和分析，可以参考：腾讯机智团队分享–AllReduce算法的前世今生

3.3.2 NCCL All reduce

英伟达于2015年公开发布NCCL,一个开源的、基于自身硬件的闭源的集合通信库实现。其算法基本实现原理，和mpi的实现是基本类似的，由于其完全基于自家硬件，可以进行充分的优化，所以基于nvidia-gpu时，使用nccl性能是很强的，真香！

NCCL VS MPI

NCCL沿袭了MPI，定义了一系列名称不同但功能类似的通信方法，针对GPU部分常用的接口做了比较大的优化，一起其他的则没有实现，有点类似于MPI的一个对GPU通信支持的很强的子集，不过并没有用MPI统一的接口。我们通过NCCL官方文档Overview和NCCL and MPI可以看出：

1.NCCL是一个实现了多GPU间集合通信原语的库
这些库具有拓扑感知的功能，易于集成到应用程序中。NCCL的集合通信算法采用了许多协调工作的处理器来聚合数据；

2.NCCL并不是一个成熟的集合通信框架，其更像是一个lib库
用于实现和加速集合通信的一些源语，NCCL当前支持以下集合通信操作：

AllReduce
Broadcast
Reduce
AllGather
ReduceScatter

3.NCCL可轻松与MPI结合使用。
NCCL类似于MPI，因此，从MPI通信实现中创建NCCL通信实现非常简单。因此，很容易将MPI用于CPU到CPU的通信，将NCCL用于GPU到GPU的通信（但是，在MPI程序中使用NCCL时，MPI中的一些实现细节可能导致问题，譬如死锁）。

3.3.3 百度Ring Allreduce

尽管在MPI的各种实现中（譬如OpenMPI），很早就有了优秀的Ring All reduce算法，不过将其引入到深度学习中，还是百度首创的。百度2016年在论文：Bringing HPC Techniques to Deep Learning中介绍了一种来自高性能分布式计算中的概念——Ring All reduce，并将其引入了深度学习（给tensorflow贡献了代码，增加了基于mpi源语实现的ring all reduce），且获得了显著的性能提升。
可参考知乎：[翻译] Bringing HPC Techniques to Deep Learning
代码：https://github.com/baidu-research/baidu-allreduce

3.3.4 其他All reduce

基于double binary tree的all reduce

《Two-Tree Algorithms for Full BandwidthBroadcast, Reduction and Scan》
double binary tree于2009年在MPI中引入，并随后在NCCL2.4中也引入了此实现：https://developer.nvidia.com/blog/massively-scale-deep-learning-training-nccl-2-4/#ref3

分层ring all reduce

《Highly Scalable Deep Learning Training System with Mixed-Precision: Training ImageNet in Four Minutes》

基于spanning tree的all reduce

《Blink: Fast and Generic Collectives for Distributed ML》

C/C++学习路线概述 DustWind丶 C/C++c++
根据如下视频和文章总结：想做C语言/C++开发?这些才是你该学的东西！C语言/C++直通企业级开发的详细学习路线节选：肝了半个月，我整理出了这篇嵌入式开发学习学习路线+知识点梳理目录1C/C++学习概述1.1C语言的基础知识1.2C++的基础知识2C/C++编程学习四大件2.1数据结构和算法2.2操作系统2.3计算机网络2.3.1计算机网络分层2.3.2典型协议（以TCP/IP四层模型举例）2.4
211 本硕研三，已拿 C++ 桌面应用研发 offer，计划转音视频或嵌入式如何规划学习路线？程序员yt c++音视频学习
今天给大家分享的是一位粉丝的提问，211本硕研三，已拿C++桌面应用研发offer，计划转音视频或嵌入式如何规划学习路线？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：前辈您好，我是211本硕，目前研三，秋招拿到C++桌面应用研发的offer，但计划的这个岗位最多干3-4年左右，后续企业规划上想往音视频开发或嵌入式上转；个人感觉C++八股，算法
动态规划算法求解背包问题的全面剖析 15号外媒算法
摘要本文深入剖析动态规划算法在求解背包问题中的应用，详细阐述动态规划算法的基本原理、核心要素与解题步骤。通过对0-1背包问题和完全背包问题的具体分析，展示动态规划算法在解决背包问题上的高效性与独特优势。同时，结合实际案例进行算法实现与结果分析，并探讨算法的优化策略与拓展应用，旨在帮助读者全面掌握动态规划算法求解背包问题的方法与技巧。一、引言背包问题作为组合优化领域的经典问题，在资源分配、投资决策、
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
二分查找算法在有序数组中的解题分析与优化带给我一点小幸运算法
摘要本文深入剖析二分查找算法在有序数组中的应用，详细阐述其基本原理、实现步骤与时间复杂度，通过实际案例展示其解题过程，并针对算法在实际应用中的常见问题提出优化策略，旨在帮助读者全面掌握二分查找算法，提升解决相关问题的能力。一、引言在计算机科学领域，查找算法是解决众多问题的基础。二分查找算法作为一种高效的查找方法，在有序数组的查找场景中具有显著优势。随着数据规模的不断增大，二分查找算法相较于其他查找
图论：以二维数组表示的连通图/树应如何表示？leetcode1042.不邻接种花坠金技术面算法图论算法 leetcode
1042.不邻接植花-力扣（LeetCode）容器在这道题中输入类似[[1,2],[3,4]]，这意味着花园1连通了花园2，花园3连通了花园4。那么该怎么根据这个输入，获取一个方便后面算法的表示呢？我们通常管这种存放邻居的数据格式叫做：邻接表通常我的思路是使用下列容器作为邻接表：哈希表，key就是花园i，value是与花园i接壤的其他所有花园。二维数组，第i个数组中的元素是与花园i接壤的其他所有花
基础算法高精度运算 #大数加法旧物有情基础算法算法高精度加法
文章目录题目链接题目解读完整代码参考题目链接题目解读题目描述输入两个正整数a,b，输出a+b的值。输入格式两行，第一行a，第二行b。a和b的长度均小于1000位。输出格式一行，a+b的值。完整代码#includeusingnamespacestd;vectoradd(vectora,vectorb){vectorres;intt=0;intsize=max(a.size(),b.size());f
图论——Prim算法水代码的程序猿力扣算法图论数据结构
53.寻宝（第七期模拟笔试）题目描述在世界的某个区域，有一些分散的神秘岛屿，每个岛屿上都有一种珍稀的资源或者宝藏。国王打算在这些岛屿上建公路，方便运输。不同岛屿之间，路途距离不同，国王希望你可以规划建公路的方案，如何可以以最短的总公路距离将所有岛屿联通起来（注意：这是一个无向图）。给定一张地图，其中包括了所有的岛屿，以及它们之间的距离。以最小化公路建设长度，确保可以链接到所有岛屿。输入描述第一行包
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
CSP-J备考冲刺必刷题（C++） | AcWing 11 背包问题求方案数热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】AcWing：11.背包问题求方案数-AcWi
亿级分布式系统架构演进实战（七）- 横向扩展（安全防护设计） power-辰南 java技术架构师成长专栏 spring boot 分布式架构设计高并发安全防护
亿级分布式系统架构演进实战（一）-总体概要亿级分布式系统架构演进实战（二）-横向扩展（服务无状态化）亿级分布式系统架构演进实战（三）-横向扩展（数据库读写分离）亿级分布式系统架构演进实战（四）-横向扩展（负载均衡与弹性伸缩）亿级分布式系统架构演进实战（五）-横向扩展（缓存策略设计）亿级分布式系统架构演进实战（六）-横向扩展（监控与日志体系）核心目标保障系统免受攻击，确保数据安全一、安全防护设计1.
亿级分布式系统架构演进实战（一）- 总体概要 power-辰南 java技术架构师成长专栏高并发分布式系统微服务架构设计 springcloud
前言不说废话，这次分享是某500强企业真实亿级流量业务中台技术架构演进过程实战。核心目标构建一个兼具高性能、高可用、强一致性的分布式系统，支撑亿级流量场景下的稳定运行。演进路线大纲阶段一：横向扩展（应对万级QPS）核心目标：突破单机性能瓶颈，建立弹性基础[Nginx]/|\[App1][App2][App3]←无状态服务集群\|/[DBProxy]←读写分离中间件/\[Master]←写节点[Sl
亿级分布式系统架构演进实战（三）- 横向扩展（数据库读写分离） power-辰南 java技术架构师成长专栏数据库 mysql 分布式系统 springcloud 架构设计
亿级分布式系统架构演进实战（一）-总体概要亿级分布式系统架构演进实战（二）-横向扩展（服务无状态化）核心目标分散数据库压力，提升读性能1.数据库架构设计数据库由原理的单实例变成主从模式，主主要负责写，从负责读。1.1主从角色定义节点类型数据流向核心职责主库读写（Write）处理事务性写操作（INSERT/UPDATE/DELETE）/部分读从库只读（Read）承担查询请求（SELECT），支持水平
数组模拟邻接表 #图论旧物有情数据结构图论数据结构
文章目录为什么要用数组来模拟邻接表存储思路遍历思路树是特殊的图，因此邻接表可以存储图和树两种数据结构。为什么要用数组来模拟邻接表在算法设计当中，利用数组来代替结构体模拟各种数据结构会更加简单。存储思路给定如下数据,我们可以构造如下的一个邻接表请看代码/**idx:索引,代表数组哪个位置,是否连续不重要,因为我们的存储是链式的。h[idx]:顶点表,下标idx代表是哪个顶点,初始值全部为-1,代表没
亿级分布式系统架构演进实战（五）- 横向扩展（缓存策略设计） power-辰南 java技术架构师成长专栏多级缓存策略 spring cloud 分布式系统缓存一致性高并发缓存问题解决方案
亿级分布式系统架构演进实战（一）-总体概要亿级分布式系统架构演进实战（二）-横向扩展（服务无状态化）亿级分布式系统架构演进实战（三）-横向扩展（数据库读写分离）亿级分布式系统架构演进实战（四）-横向扩展（负载均衡与弹性伸缩）核心目标降低数据库读压力，提升响应速度一、多级缓存架构客户端CDN/浏览器缓存本地应用缓存分布式缓存数据库缓冲池1.1客户端缓存缓存数据类型：•静态资源（JS/CSS/图片）•
LeetCode 热题 100_跳跃游戏 II（79_45_中等_C++）(贪心算法) Dream it possible！ LeetCode 热题 100 leetcode c++贪心算法算法
LeetCode热题100_跳跃游戏II（79_45）题目描述：输入输出样例：题解：解题思路：思路一（贪心选择）：代码实现代码实现（思路一（贪心算法））：以思路一为例进行调试题目描述：给定一个长度为n的0索引整数数组nums。初始位置为nums[0]。每个元素nums[i]表示从索引i向后跳转的最大长度。换句话说，如果你在nums[i]处，你可以跳转到任意nums[i+j]处:0&nums){in
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
决策树算法及其python实例 m0_74831463 算法决策树 python
一、决策数的概念什么是决策树算法呢？决策树（DecisionTree）是一种基本的分类与回归方法，本文主要讨论分类决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对数据进行分类的过程。它可以认为是if-then规则的集合。每个内部节点表示在属性上的一个测试，每个分支代表一个测试输出，每个叶节点代表一种类别二、决策树的构造1、决策树的构造步骤输入：训练集D={(21,11),(z2,32),
OpenCV图像拼接（2）基于羽化（feathering）技术的图像融合算法拼接类cv::detail::FeatherBlender 村北头的码农 OpenCV opencv 算法人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::FeatherBlender是OpenCV中用于图像拼接的一个类，它属于stitching模块的一部分。这个类实现了基于羽化（feathering）技术的图像融合算法，用于平滑地混合重叠区域中的图像，从而生成无缝的全景图。主要特点羽化技术：
OpenCV图像拼接（1）自动校准之校准旋转相机的函数calibrateRotatingCamera() 村北头的码农 OpenCV opencv 人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::calibrateRotatingCamera是OpenCV中用于校准旋转相机的函数。它特别适用于那种相机相对于一个固定的场景进行纯旋转运动的情况，比如在全景拼接过程中。此函数可以从一系列单应性矩阵（HomographyMatrices）中
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
Kafka深度解析 GarfieldEr007 Kafka/MQ Kafka 深度解析 MQ
原创文章，转载请务必将下面这段话置于文章开头处（保留超链接）。本文转发自Jason’sBlog，原文链接http://www.jasongj.com/2015/01/02/Kafka深度解析背景介绍Kafka简介Kafka是一种分布式的，基于发布/订阅的消息系统。主要设计目标如下：以时间复杂度为O(1)的方式提供消息持久化能力，即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价
【小白深度教程 1.32】手把手教你从多视角图像进行 3D 重建（SfM 算法）小寒学姐学AI 3d 算法计算机视觉人工智能深度学习 python 三维重建
【小白深度教程1.32】手把手教你从多视角图像进行3D重建（SfM算法）1.SfM三维重建算法简介2.SfM方法和原理3.安装依赖库4.构建数据集5.可视化结果6.完整代码1.SfM三维重建算法简介从多张照片中开发三维模型被称为多视图3D重建。数码相机的进步以及图像分辨率和清晰度的提高，使得利用仅有的相机而非昂贵的特殊传感器来重建3D图像成为可能。重建的目标是从一组照片中推导场景的几何结构，假设摄
python学智能算法（八）|决策树西猫雷婶人工智能 python学习笔记机器学习 python 决策树开发语言
【1】引言前序学习进程中，已经对KNN邻近算法有了探索，相关文章链接为：python学智能算法（七）|KNN邻近算法-CSDN博客但KNN邻近算法有一个特点是：它在分类的时候，不能知晓每个类别内事物的具体面貌，只能获得类别，停留在事物的表面。为了进一步探索事物的内在特征，就需要学习新的算法。本篇文章就是在KNN的基础上学习新算法：决策树。【2】原理分析在学习决策树执之前，需要先了解香农熵。本科学控
17-OpenCVSharp 中实现 Halcon 的 Points_Harris算子（Harris 角点检测）观视界 #opencv 人工智能计算机视觉图像处理矩阵
专栏地址：《OpenCV功能使用详解200篇》《OpenCV算子使用详解300篇》《Halcon算子使用详解300篇》内容持续更新，欢迎点击订阅在OpenCVSharp中实现类似于Halcon中的Points_Harris算子，实际上就是实现Harris角点检测算法。Harris角点检测算法是用于检测图像中的角点特征，可以用来进行图像匹配、物体识别等任务。Halcon提供的Points_Harri
密码策略合规性检查仪表盘闲人编程 python 网络服务器异常报警实时监控多因素认证合规性密码策略
目录一、前言二、密码策略合规性背景与意义2.1密码策略的重要性2.2密码策略合规性检查的需求三、系统设计思路与架构3.1数据采集与加解密模块3.2异步任务调度与GPU加速模块3.3密码策略检查算法模块3.4GUI界面模块四、核心数学公式与算法证明4.1AES-GCM加解密公式4.2密码强度评分算法4.3合规性检测算法4.4统计与报告生成五、异步任务调度与GPU加速设计六、GUI界面设计与功能模块七
SpringBoot整合阿里云、腾讯云、minio、百度云、华为云、天翼云、金山云、七牛云、移动云、网易数帆等等有关于S3协议下文分布式对象存储接口 java初学者分享阿里云腾讯云华为云
前提：在可运行的SpringBoot的项目内引用以下JAR包整个工具的代码都在Gitee或者Github地址内gitee：solomon-parent:这个项目主要是总结了工作上遇到的问题以及学习一些框架用于整合例如:rabbitMq、reids、Mqtt、S3协议的文件服务器、mongodbgithub：GitHub-ZeroNing/solomon-parent:这个项目主要是总结了工作上遇到
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

【深度学习】— 分布式训练常用技术总结

【深度学习】— 分布式训练常用技术总结

概述

1.数据并行or模型并行

数据并行图示

模型并行图示

1.1 数据并行

什么是数据并行？

为什么需要数据并行？

1.2 模型并行

什么是模型并行？

为什么需要模型并行？

2.分布式下的集合通信(Collective communication)

MPI 的历史简介

2.1集合通信

Send&Receive

Broadcast&Scatter

Gather

All gather

Reduce

All reduce

2.2通信库

Open MPI

Gloo

NCCL

Horovod

3.分布式训练和All reduce

3.1 二者关系？

3.2 All reduce哪家强？

3.2.1 OpenMPI

3.3.2 NCCL All reduce

NCCL VS MPI

3.3.3 百度Ring Allreduce

3.3.4 其他All reduce

你可能感兴趣的:(深度学习,分布式,算法)