黄昏贩卖机

Efficient Large-Scale Language Model Training on GPU ClustersUsing Megatron-LM

1 INTRODUCTION

在这篇文章中展示了如何将 tensor ，pipeline， data 并行组合，扩展到数千个GPU上。
提出了一个新的交错流水线调度，可以提升10%的吞吐量。propose a novel interleaved pipelining schedule that can improve throughput by 10+% with memory foot-print comparable to existing approaches
训练transformer 语言模型等这类模型，模型规模超大，挑战：

不能将模型直接放入GPU内存中训练，既是GPU内存非常大：
即使可以将模型装入GPU，太多次数的操作也会导致难以忍受的训练时间

利用数据并行进行规模化，通常表现很好但是存在两方面的限制：
a) 除了一个节点的情况，每个GPU的batch size 太小会将带GPU的利用率，增加通信的损耗
b) 可用设备的最大数是batch的size，限制了加速器的数量。
一些模型被提出来解决这两个挑战

tensor (intra-layer) model parallelism,层内并行模型。transformer每一层内的矩阵乘被切分到多态GPU上。在更大的模型上表现不好；
更大的模型被被割到多个· 多GPU的服务器上，导致两个问题：

allreduce实现tensor并行，需要经过服务器间的链路（ inter-server links ），要比在一个多GPU服务器内的高带宽 NVLink 慢得多。
高程度得模型并行，会造成小矩阵相乘，可能会降低GPU利用率（为什么？？）（GEMMs？小矩阵的运算没有大矩阵高效，降低了GPU利用率？）

流水线模型并行，将模型的各层分不到CPU上。将一个batch 分成多个更小的 microbatches，通过流水线执行。
为了达到高效，需要更大的batch size

本文中介绍了一种新的流水线调度方式，可以提升小的batch size的效率。

本文解决如下问题：

在保证严格的优化器语义的同时，如何结合并行化技术来最大化给定 batch size的大模型训练吞吐效率。（strict optimizer semantics？？？）
How should parallelism techniques be combined to maximize the training throughput of large models given a batch size while retaining strict optimizer semantics?

PTD-P：将 pipeline，tensor，data parallesim 进行结合的技术。

研究了不同组件之间相互作用对吞吐量的影响。
在这些研究的基础上，我们提供了如何配置分布式训练的指导原则：

Different forms of parallelism interact in non-trivial ways:不同方式的并行以非平凡的方式交互。 tensor并行最好在多GPU的sever内部使用，才更高效。
不同的并行化策略会影响：通信量、 kernel的计算效率、worker的空闲时间、 pipeline 气泡。提出交错式的流水线调度，寄生吞吐量，限制内存占用。
超参数，例如micro batch的大小会影响内存占用、计算效率、流水线气泡大小
分布式训练是通信密集型的，如果 inter-node 通信慢，或者在通信密集处分区隔断，将严重影响效率

2 并行化模型

PTD-P ：我们将管道模型并行性和张量模型并行性（组合如图2所示）与数据并行性相结合，并称之为 PTD-P

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-neZO7MOh-1669727514425)(assets/markdown-img-paste-20220712113741693.png)]

2.1 数据并行化

每个工作节点都有完整的模型，输入的数据被切分，worker 定期聚合梯度，保证所有worker 看到版本一致的权重。
对于太大的模型，无法适配到单个工作节点上。

2.2 流水线并行模型

模型的层被分割到多个设备上。
当应用到有相同的transformer模块重复的模型时，每个设备分得相同数量得transformer 层。我们不考虑更多非对称得模型结构，分配策略会更难。

一个batch 被分成更小得 microbatches，然后在 microbatches 上执行流水线。

流水线模式需要保证：流水线方案需要确保输入在前向和后向传递中看到一致的权重版本，保证是严格优化的。

为准确保留严格优化器语义（strict optimizer semantics），我们引入了流水线周期性刷新，以便优化步骤跨设备同步。

在设备空闲时，空闲时间被称为流水线气泡(pipeline bubble)，要使得它足够小。

Asychromous （异步）和 bounded-staleness （边界陈旧）的方式比如：PipeMare，PipeDream 和 PipeDram-2BW 完全消除了 flushes ，但是松弛了权重更新语义。

有几种可能的 microbatch 跨设备前推和后推调度策略。对 bubble size，通信，内存占用进行 trade off

2.2.1 Default Schedule

GPipe 第一次执行将一个batch的所有 microbatches 向前传递，然后再将所有的 microbatches 向后传递。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-80mfGana-1669727514427)(https://raw.githubusercontent.com/novaCoder-zrk/Picture-Bed/master/img[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YyQKcTFF-1669727514773)(…assetsmarkdown-img-paste-20220709213408346.png)]].png)

每个decive可以运行多个层的集合，称为 model chunck
对一个设备，气泡时间
$t_{pb} = (p-1)*(t_f + t_b)$

理想的处理时间（不包含气泡的时间）
$t_{id} = m*(t_f + t_b)$
m 是一个batch 分成的 microbatch 的数量

$\,time \, fraction(pipeline \,bubble\, size) = \frac{t_{pb}}{t_{id}} = \frac{p-1}{m}$

要使的气泡时间分数小，使得 m 远大于 p，对于大的m会导致搞得内存占用率，因为需要将中间激活值保存在内存中，在 m microbatch的生命中周期中，都需要保存

PipeDream-Flush

因为，在处理一个batch时，如果让所用的microbatch 都处于处理中的状态(in-flight microbatches)，内存占用会很大，因此需要限制管道中还没处理完的microbatch的数量。

PipeDream-Flush 调度，首先进入热身步骤，worker进行一定次数的向前传递，没有一下子将所有的forward都进行完，等有microbtach可以进行backward的时候立刻进行backward，

这个调度限制了处理中的 microbatch的数量，限制在了管道深度depth，而不是batch中microbatch数。

在经过了热身阶段后，每个worker进入了一种稳定状态，向前和向后传递交替进行（1F1B）。

这个新的调度的气泡时间是相同的，但是需要更少的激活被存储，不需要保存 m 个中间激活，只需要depth个。

当m远大于p的时候，PipeDream-Flush 比 Gpipe 内存效率更优。

2.2.2 带交错阶段的调度Schedule with Interleaved Stages

本文提出的新方法
为了减少流水线的气泡，设备可以为层的多个子集进行计算(model chunk)，而不是计算一组连续的层。也就是说一个设备可以执行多股效地chunk，而不是一整个连续的chunk，相当于流水线的细分。

例如，一个机器可以计算4层，设备1 计算1，2，9，10；设备2 计算3，4，11，12；每个设备计算两个模型块，每个模型块有2层。

每个设备承担更多计算阶段，每个阶段的计算任务却更少。

使用1F1B 和交错阶段调度；
要求microbatch的数量，是流水线并行度的整数倍。

将流水线的每个阶段减小，气泡就小了。但是数据之间的传输通信速度又会造成代价。

以前每个device只有一个stage（或者说 model chunk），如今每个device都有 v 个model chunk

因此气泡的时间减少为 $t_{pb}^{int.} = \frac{(p-1)(t_f + t_b)}{v}$

$\,time \, fraction(pipeline \,bubble\, size) = \frac{t_{pb}^{int.}}{t_{id}} = \frac{1}{v}\cdot\frac{p-1}{m}$

将流水线细分，可以提高流水线的并行度，会减少流水线气泡的大小，但代价是增加了机器之间的通信量

2.3 Tensor Model Parallesim

Tensor Model 会将单独的层，划分到多个机器上
Megatron 划分策略：

用于transformer模型层的划分
一个transformer层由一个self-attention块，后跟一个两层的多层感知器（MLP）组成。

多层感知机的划分策略

split A= [A1,A2]
Y = [Y1,Y2] = [GeLU(X A1), GeLU(X A2)]
B矩阵按行划分

multi-head attention 的划分策略

在multi-head attention中，因为固有的并行性，每个GPU可以只负责一个头的attention的计算

3 PERFORMANCE ANALYSIS OF PARALLELIZATION CONFIGURATIONS

并行化配置的性能分析
不同维度的并行化都进行了内存占用，设备利用率和通信量的tradeoff

讨论tradeoff
提出了有关流水线气泡大小的的分析模型
定量描述通信时间行为（communication time behaves），并且提出了通信代价量的模型，但没有提出直接通信时间代价模型，分层通信建模比较困难
据目前所知，这是第一个分析不同维度并行化交互性能的工作。

3.1 符号

（p,t,d）：p 流水线模型并行大小，t tensor模型并行大小，d 数据并行大小
n GPU的数量 p·t·d = n
B: 全局batch size ，input的大小
b: microbatch 的大小
$\frac{1}{b} ·\frac{B}{d}$

3.2 Tensor and Pipeline Model Parallelism

流水线模型，有更廉价的点对点通信； Tensor并行模型使用all-reduce 通信
有n个GPU，不考虑data 并行，data 并行度设为1,d = 1. $t\cdot p = n$

流水线气泡大小：
$\frac{p-1}{m} =\frac{n/t-1}{m}$
m 是确定的，当t增加，流水线的气泡减少。

流水线模型，在每对连续设备间需要进行通信，为每个 microbatch 的通信总量为为 bsh。

s 是序列长度 (sequence length)，s怎么理解？每个样本序列的长度？ h是（hidden size）

大小为 bsh的tensor需要在t个设备之间进行all-reduce，forward和backward个进行一次，每个设备每层的总传输量为 $8bsh(\frac{t-1}{t})$
每个设备有 $l^{stage}$ 层，每个设备总的传输量为 $l^{stage}\cdot(8bsh(\frac{t-1}{t}))$

tensor 并行增加了设备之间的通信量。
当t大于单个接单的GPU数量时，需要节点之间进行通信。更慢的节点之间的链路的影响是很大的。

要点#1
当使用 g-GPUS服务器时，将tensor 并行度控制在g之内，使用pipeline 并行来跨服务器扩展模型

3.3 Data and Model Parallelism

3.3.1 流水线模型并行

$m = B / (d b) = b^{'} / d$
其中， $\frac{B}{b}$ $p = n / (t \cdot d) = n / d$

$\,time \, fraction(pipeline \,bubble\, size) = \frac{p-1}{m} = \frac{n/d - 1}{b'/d} = \frac{n-d}{b'}$

当 d 变大，流水线气泡变小。
虽然将 d增加，会减少气泡，但是将 d增加到 n 是不太现实的，因为一个模型的大小会超出单个GPU的内存

如果数据并行all-reduce 通信，不会随着 d的升高而剧烈增加，比如 ring方法的实现，总的吞吐量会增加
分析 B batch size 增加的影响。 B增加，b’增加， (n - d)/ b’ 减少，因此吞吐量增加。
B增大，data 并行的all-reduece 频率降低，更提高了吞吐率

3.3.2 Data and Tensor Model Parallelism

因为 tensor 模型并行，每个microbatch 都需要执行 all-reduce 通信。
因为数据并行，每个batch 都要进行代价较大的 all-reduce 通信。
GPU负责计算一个层的一部分，如果模型的层不够大划分给一个GPU的矩阵计算太小，GPU的利用率会不高
tensor 的通信代价比 data并行的通信代价大得多。

要点#2
data 并行，只需要在 batch 层面进行 all-reduce。但是tensor 并行，需要在每个micro batch 层面进行all-reduce。
总的模型并行度 M = tp,tensor 和 pipeline 主要是为了将大模型切分以适应GPU的主存，但是数据并行，主要是为了将训练扩展至更多的GPU。

3.4 Microbatch Size

microbatch 的大小 b 同样也可以影响模型训练的吞吐率。

想在给定(p,t,d) 和 batch size B的情况下，确定最优的 microbatch 的大小 b
无论microbatch的大小如何，数据并行的通信量是不变的
给定 $t_f(b) \quad t_b(b)$ ,分别表示了单个microbatch 的大小与向前、向后的传递计算时间。不考虑通信的损耗，用于计算一个 batch的时间为

microbatch的大小，影响计算操作 forward backward的强度，也影响气泡的大小。batch确定，d 确定，b 越大，microbatch的数量越少。 b 越大，forward，backward 计算量更大

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BHdRNdP8-1669727514434)(https://raw.githubusercontent.com/novaCoder-zrk/Picture-Bed/master/img[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2lmtSckd-1669727514735)(…assetsmarkdown-img-paste-20220710215139274.png)]].png)

要点#3
对于 microbatch size b的优化，要考虑吞吐率，内存占用，pipeline深度，data 并行度 d，batch大小B

3.5 Activation Recomputation

激活值的重新计算是计算量和内存占用的 tradeoff
只存给定流水线阶段输入的激活值，而不是保存整个集合上的大得多的激活值
在训练相当大的模型时，重新计算激活值，保证内存占用在一个较低的可接受的水平。
激活值检查点的数量不影响吞吐率，但是影响内存占用。
大多数情况下，每一到两 transformer层设置一个检查点最优
其他技术，比如（激活分区）activation partitioning 可与和 tensor model 并行一起使用以降低激活值得内存占用

4 IMPLEMENTATION

实现了PTD-P，作为 Megatron-LM 的代码库
使用PyTorch 构建
使用NCCL 作为设备间的通信
以优化通信和计算为目的

4.1 Communication Optimizations 通信优化

使用A100时，配备了8 个IB网卡，但是在两个sever之间，只能进行一对GPU之间的通信，这就很难充分利用8个卡。

使用 tensor模型和流水线模型，来降低跨界节点通信的额外开销。
每个transformer 层的输出是重复的，因为经过 all-reduce后（如 MLP block 中的g）每个GPU上的参数是一样的，如果8个卡，每一对之间发送的数据是相同的，并且sever之间的传输速度慢，会导致效率降低。

scatter/gather communication optimization

每个卡只需要发送 output的一部分，每个卡发送的数据量相等，在接收端通过NVLink 执行all-gather
将发送端的tensor1 划分成大小相等的块，每个rank 只发送一块到下个设备，通过 InfiniBand card
有 8 个tensor 并行，每个块是原先的 1/8大。在接受端，使用 NVLink 上的 all-gather 来得到完整的tensor。
通过 scatter-gather 通信优化，在两个阶段之间的总的通信量减少到了 $\frac{bsh}{t}$ , t 是tensor模型并行的大小， s是序列长度， h 是隐藏层大小

4.2 计算优化

三种特定模型的优化

首先：更改transformer 层的数据布局，来避免内存占用较多的转置操作(transpose) , 并且可以使用 strided batched GEMM ，将数据布局从[b,s,a,h] 和修改为[s,b,a,h] 。
其中 b,a,s,h, 分别为 batch 大小，序列长度， attention-head ，hidden-size 的维度？？为什么原先的数据布局是这样？？
其次，使用 PyTorCH JIT 为一系列元素级操作生成融合核，将几个kernel 融合在一起
第三，创建了两个自定义核，来实现 scale, mask, and softmax (reduction) 的融合。一个用来支持一般的mask ，另一个用于隐含式因果mask (implicit causal masking)

5 EVALUATION

回答如下问题：

PTD-P 表现如何，它是否会导致实际的端到端的训练时间？
在给定模型和 batch大小时，流水线并行的扩展程度如何？交错调度（interleaved schedule）如何影响性能？
不同维度的并行化如何联系？超参数有什么影响？
scatter-gather 通信优化的影响是什么？在进行大规模训练的时候，我们对硬件做出了那些限制？

实验使用的是适当大小的GPT模型

5.1 End-to-End Performance

考虑使用GPT 模型，进行 end-to-end 训练的性能
随着模型增大，GPU的利用率提高，但是和计算时间相比，通信时间并没有显著的增加。

5.2 Comparison to ZeRo-3

使用标准的 GPT-3 模型结构

5.3 流水线并行

单独评估流水线并行的弱扩展性能(weak-scaling) ,比较非交错和交错调度的性能

5.3.1 Weak Scaling 弱扩展性能

pipeline 并行度从 1 变化到8，在增加pipeline 并行度的同时，改变模型的大小。比如 p = 1，使用3层transformer的模型，15 billion 个参数;p = 8，使24层transformer的模型，121 billion 个参数

batch 越大，将 pipeline bubble摊到更多得到 microbatch中；batch越大，pipeline 并行度增加对计算雄安绿的影响越小。

5.3.2 Interleaved versus Non-Interleaved Schedule 交错v.s. 非交错流水线调度

交错流水线调度和非交错流水线调度之间的差距 gap 会随着batch增大而减小，主要有两个原因：

a) batch增大，bubble size减小。
b) batch 增大，通信量增加，给了非交错流水线 catch up的机会。交错式流水线需要更多的通信。

5.4 Comparison of Parallel Configurations

讨论了不同为维度的并行度结合的tradeoff和性能

5.4.1 Tensor v.s. Pipeline 并行

tensor 并行最好还是在同一个的sever内部
流水线气泡花得时间也很多，因此也不宜使得流水线阶段过多。

5.4.2 Pipeline v.s. Data 并行

流水线模型主要用来切分模型，数据并行主要用来扩大训练规模

data 并行度越高，性能越高。

5.4.3 Tensor v.s. data 并行

相对于tensor 并行，data 并行的通信量更少
tensor 并行度增加，使得每个GPU上的矩阵乘的规模更小，降低了GPU的利用率，同时又增加了 all-to-all 的通信量

data 并行无法总是应用

a)GPU 内存限制，一个GPU无法装下一整个模型
b) batch 大小1536，只是用data 并行只用1536GPU，但是可以使用10000个GPU

5.5 Microbatch Size

batch 大小固定，microbatch大小增加，m减小，气泡变大。但是 microbatch增大，GPU利用率提升了

5.6 Activation Recomputation

激活值重计算，可以减少内存占用，因此可以增加训练时batch的大小，来减小流水线中的气泡，会随着batch增大，提高效率

7 DISCUSSION AND CONCLUSION

这篇文章中，展示了PTD-P 可以组合在一起，来实现更高效的吞吐量

20210515成长日记 samantha
1.呼吸法。2.柠檬水，西芹汁，果汁。3.小米粥午餐。4.拆书法学习1）本周的学习,我的目标是什么?了解拆书法,学会拆读一本书。2)整个听课和作业完成的过程中发生了什么?a.听着老师的讲课和完成作业,一层层升级了自己的拆书思维。打开了新的思维,不正确的学习方式让我产生焦虑,追逐干货。大量的听课追逐干货,如果能把这些学到的用到极致就是最大的成长和收获。听课的过程中有陷入知识为中心的思维而去记录老师说
人工智能真的能编程吗？研究勾勒出自主软件工程的障碍 WSSWWWSSW 人工智能软件工程
想象一下这样一个未来：人工智能悄然承担起软件开发的繁重工作：重构杂乱无章的代码、迁移遗留系统以及排查竞态条件，这样人类工程师就可以专注于架构、设计以及那些机器仍然无法解决的真正新颖的问题。最近的进展似乎让这个未来近在咫尺，但麻省理工学院计算机科学与人工智能实验室（CSAIL）以及其他几家合作机构的研究人员发表的一篇新论文指出，要实现这个潜在的未来，需要认真审视当前面临的挑战。这篇题为《面向软件工程
arXiv.org
arXiv的发展历程与目标解析一、发展历程：从邮件列表到学术基础设施（1991年至今）萌芽期（1989-1991）起源：1989年，物理学家PaulGinsparg基于弦理论专家的邮件列表，尝试自动化预印本分发。1991年8月，洛斯阿拉莫斯国家实验室上线xxx.lanl.gov，最初仅服务高能物理领域，通过电子邮件接收投稿，半年内收录400篇论文。技术突破：1993年接入万维网，成为首个使用“摘要
修改文章《写作的意义》小结读写缘
昨天，读周老师的文章《找到写作意义》，我反思自己对写作的认识，写了一篇文章《写作的意义》。全文一千两百多字，自信满满。初稿形成时，感觉梳理的不是很清楚，对直接引用周老师的原话是否合适有疑问，便把文章发给燕老师，请教修改意见。得到燕老师的点拨，思路逐渐明晰，提笔重写。这次换了说法，把周老师文章中的原话全部删减，理解找出关键语句作为小标题，展开分层描述。修改后的文章九百多字，有些小惋惜，但很值得。文章
借助零信任网格重塑分布式MCP与LLM访问：安全、灵活的下一代架构实践码力金矿机器学习深度学习人工智能人工智能自动化运维数据库 mysql python java
在数字化转型的浪潮中，AI应用与分布式系统正在加速融合。传统架构中，MCP（模型上下文协议）服务与LLM（大语言模型）工具的部署常面临安全暴露、网络复杂性、跨防火墙通信等挑战。本文将结合零信任网格（ZTM,ZeroTrustMesh）与Flomesh技术，探索一种更安全、灵活的分布式架构方案，让MCP服务无需VPN或静态IP即可实现全球可访问，同时为LLM应用提供统一的安全层。一、传统分布式架构的
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架（原创创新算法）
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架项目背景随着深度学习技术的快速发展，目标检测在各个领域都取得了显著的进展。然而，现有的监督学习方法在实际应用中面临着标注数据稀缺、泛化能力不足等挑战。特别是在火灾烟雾检测、工业质检等特定场景中，获取大量高质量标注数据的成本极高。为了解决这一问题，本项目基于最新发布的YOLOv13架构，结合EfficientTeacher半监督学习框架，
USB串口通信、握手协议、深度学习等技术要点深度学习教程, 深度学习人工智能网络协议
基于OpenMV的智能车牌识别系统：从硬件到算法的完整实现前言本文将详细介绍一个基于OpenMV微控制器的智能车牌识别系统的设计与实现。该系统集成了嵌入式视觉处理、串口通信协议、深度学习OCR识别等多种技术，实现了从图像采集到车牌识别的完整流程。系统架构概述整体设计思路该车牌识别系统采用分布式架构设计，将计算密集型任务与嵌入式控制分离：┌─────────────┐USB串口通信┌────────
爆改YOLOv8 | 利用AFPN增加小目标检测层(替换小目标检测头）
1，本文介绍这篇文章的改进机制是利用新推出的渐近特征金字塔网络（AFPN）来优化yolov8的检测头，AFPN的核心是引入一种渐近的特征融合策略，将底层和高层的特征逐渐整合到目标检测过程中。这种方式有助于减小不同层次特征之间的语义差距，提高特征融合效果，使得检测模型能更好地适应不同层次的语义信息。关于AFPN的详细介绍可以看论文：https://arxiv.org/pdf/2306.15988.p
黄河，我的母亲——教读《黄河颂》有感山城居士
黄河，你是巍巍昆仑孕育的女儿是生我，养我的母亲你如同黄沙般普通又朴实每天重复着同样的事——哺育我成长你伸出千万条柔弱的手臂，揽着我给我温暖与安全你是摇篮，我就是你摇篮里的婴孩你经历无数的狂风暴雨始终不变奔向黄海的志向把坚强融进了血脉这是你赋予我的期盼——博大胸怀这是你教会我的人生——坚强勇敢
【每日精进】少了读书和运动，不是美好的一天金台望道
6月25日星期六天气：晴好早晨：5点多起来，就整理发布“读毛年谱（176）”，顺便整理各个平台这个栏目的材料，均声明专栏是读书笔记，并非原创。以后这个栏目都不要放在宝贵的早上来做，完全放在晚上加工。早上做原创工作。以后每天还要安排读书和运动。少了这两样，这一天也不是美好的一天了！上午：到图书馆去，继续写小说第48章。下午：本想去图书馆，中午饭后，就在家里睡大觉了，一下午没做事。呜呼！晚上：完成“读
语音识别开源项目推荐：GitHub热门仓库盘点 AGI大模型与大数据研究院 AI大模型应用开发实战语音识别开源 github ai
2024年必看！GitHub热门语音识别开源项目全解析：从入门到实战关键词语音识别(ASR)、开源项目、GitHub、Whisper、FunASR、PaddleSpeech、深度学习摘要想象一下：开车时只需说一句话就能自动发消息，听英文演讲时实时获得中文翻译，给视障人士读文本时精准转换——这些场景的背后，语音识别（AutomaticSpeechRecognition,ASR）技术正在改变我们与机器
喜欢打球的人… 老贼
2017-10-2123:13:48推杆正反都要看线，读明白上下坡很关键，少上多送的目的是为了使方向和力道可控。第一洞四杆洞，第一轮一木开球球落球道正中；第二杆120码九铁打厚落短，仅低飞60、70码，落右侧沙坑沿；第三杆56度站位不佳，打高落短，落入果岭前沙坑；第四杆60度切上果岭；第五推离洞杯8、9码，仅从落球位观察了果岭，没有发现果岭左高右低的巨大幅度，用力过猛，球滚落下坡，又距洞杯7码左右
《生有热烈，藏与俗常》：在琐碎的日子里，“扒出”温柔，细细观赏～知粥
最近读了这本《生有热烈，藏与俗常》，之所以读这本书，他有趣的封面，是其中一个原因，另一个原因就是他的书名了。先说封面，整个封面以浅蓝色打底，很注重细节，可以看出封面周围有一些水泡，对于其中大片的浅红色图案，我个人感觉是金鱼或者是鱼类。对于书名的话，我之前看过这句话的意思，至于它的具体含义，可以看一下图的解释：整本书，和我之前看过的散文基本框架相同，总共有五个章节，每个章节有一个大体的主题，但每一篇
单片机智能衣柜论文，仅供参考 Believe Y python
大连东软信息学院毕业设计（论文）论文题目：单片机智能衣柜学院：智能与电子工程学院专业：智能科学与技术学生姓名：周成彬学生学号：19003170203指导教师：王宏波韩媞导师职称：讲师副教授完成日期：2023年4月22日大连东软信息学院DalianNeusoftUniversityofInformation基于单片机的智能衣柜摘要尽管传统的衣橱能够很好地满足储藏衣物的需求，但是因为衣橱的作用很简单，
我的超雄霸总老公小说全文免费阅读(厉司寒许蔓蔓)全文免费厉司寒许蔓蔓读无弹窗大结局_ 厉司寒许蔓蔓免费厉司寒许蔓蔓读最新章节列表_笔趣阁（我的超雄霸总老公小说）细雨文库
我的超雄霸总老公小说全文免费阅读(厉司寒许蔓蔓)全文免费厉司寒许蔓蔓读无弹窗大结局_厉司寒许蔓蔓免费厉司寒许蔓蔓读最新章节列表_笔趣阁（我的超雄霸总老公小说）主角配角：厉司寒许蔓蔓小说别名：我的超雄霸总老公简介：爸，妈，我同意出国留学了。”听见女儿终于松口答应了，远在重洋的父母声音里满是欣慰。一声令下，许蔓蔓身后的一个保镖，立刻手持匕首走向我。见状，其中一个胆小的闺蜜有些惶恐地开口：“蔓蔓姐，这毕
【论文蒸馏】Recent Advances in Speech Language Models: A Survey Greener_Pat 论文蒸馏语言模型人工智能 AudioLM
AbstractLLM蓬勃发展，但从交互的自然性上看语音大模型(SpeechLM)有巨大的发展空间。直接的方法是ASR(语音转文字)+LLM+TTS(文字转语音)，但是这样有其固有的限制，而端到端的SpeechLM表现更好，本文及其方法论做了一个概览的综述1.Introduction大语言模型提供了强大的AI基础支架，在其它领域有着广泛应用。但交互上不自然，所以需要声学大模型。一种直接的实现方式是
2023-05-16 莫忘小寒
当你发泄的方式再也不是换头像，改签名，发朋友圈，找朋友倾诉，而是静一静，吹吹风，发发呆，那么恭喜你，你成长了，只是成长的过程有点艰难甚至有点痛苦。2、读那么多书干什么呢?就是为了在要紧关头，我们有选择的自由和底气，对于我们不喜欢的人和事，我们站起来就走，无谓纠缠。3、总有一天你会明白:任何关系到最后只是相识一场，大家也都是阶段性的陪伴，那些你放不下的人和事到最后岁月都会替你去轻描淡写。这个世界上从
女子善怀，亦各有行 ——读《诗经·鄘风·载驰》静默如迷
女子善怀，亦各有行《诗经·鄘风·载驰》茯芝苓每每读到《载驰》，我仿若看到心急如焚的许穆夫人左手执缰绳，右手拿长鞭，侧身驱马前行，一袭黑披随之飘扬，紧随其后的是同行姐妹的轻车。再后面，是追赶而来的许国大夫，各个策马奔腾，扬起一路尘与土……原文如下：载驰载驱，归唁卫侯。驱马悠悠，言至于漕。大夫跋涉，我心则忧。既不我嘉，不能旋反。视尔不臧，我思不远。既不我嘉，不能旋济。视尔不臧，我思不閟。陟彼阿丘，言采
好词句文学鉴赏一夏天的阳光001
蜜蜂忘了带油纸伞，也没顾上拿竹斗笠，偏偏芍药家又晴耕雨读，闭门谢客，所有的花朵都关好了花瓣。俊朗的蜜蜂只好忙乱地在层层叠叠的绿叶间翻来翻去，是想找一朵重重花门虚掩的花墅，还是想找到一片肯满怀柔情地收留自己的叶子？那蜜蜂……马上就掸掸翅膀上的雨水，安静地席叶而坐，守在一朵芍药的花窗下，听花、铺纸、研墨，听火、烹水、煮茶，听风、翻书、填词……不知道那雨是什么时候停的，也不知道那蜜蜂是什么时候离开的，只
记录快乐的读书时光林姐_健康生活
“魔法人生·悦读俱乐部”第21天打卡（《业力管理》第97页~第112页）：生命终究是脆弱的，十几岁的少年骑电动车和三轮车发生车祸，人当场没了，可以想象到父母撕心裂肺的痛…到底是谁的错？孩子的胆大？父母的放纵？车主的粗心大意？揪谁的错没有意义，流逝的生命已无法挽回，安全警钟必须长鸣！一、今天阅读的有哪些重点内容，对我有哪些启发今天读了业力管理法则五：停止做决定1.“极简主义”设计，只有礼盒图片，没有
2022-08-05日学录当年观棋
月的最后一天，睡了很长的时间。外面的天气是燥热的，在宿舍的房间里有一丝微凉。实验说到底来说还是想法的验证，但在远远超出自己知识和能力范围的假设，自己也奈何估算不出来。对一些高级仪器的使用还在处于一个基本的阶段。后续在研二的这个阶段，要全身心投入到毕业论文的内容撰写之中去。其实想法有很多，但是真正估计出来可以做的其实也就一两个。这就最终决定了自己毕业论文的宽度。哈哈哈哈哈哈哈哈哈哈
读《小学教师与民主运动》有感红领巾旳小辫子
本周拜读的是陶行知文集中的《小学教师与民主运动》一文，真的是令我感慨万千。其中令我印象深刻的是先生在文中提到的六大解放：一、解放他的头脑，使他能想；二、解放他的双手，使他能干；三、解放他的眼睛，使他能看；四、解放他的嘴，使他能谈；五、解放他的空间，使他能到大自然大社会里去取得更丰富的学问；六、解放他的时间，不把他的功课表填满，不逼迫他赶考，不和家长联合起来在功课上夹攻。即使是放在现在课堂教学中，也
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
不可多得的风味小吃——读杨勇的《家园四书》（笔记4）潜2023
身为亳州人，谁不喜欢了解亳州事？读杨勇先生（雅不知）的《家园四书》，相当于走进了亳州，了解她的过去和现在。《家园四书》总共有四部分组成，每一部分都是一道亳州风味的小吃，让你了解亳州的同时，更能咀嚼出她的美。《历史书：明月前身》写了亳州诸多历史人物。写得厚重大气，篇篇有铮铮铁骨，文笔刚劲有力，也不乏诙谐，偶有文白相间之处，读来很有韵味，像作者的书法，需得细细地品。它是亳州的肉夹馍，咔吱一口咬下去，满
【无标题】
PyQt5相关论文方向扩充及技术特性解析PyQt5的核心优势PyQt5作为基于Qt框架的Python绑定库，在科研与工程应用中具备显著优势。其跨平台兼容性极强，可在Windows、macOS、Linux等主流操作系统上稳定运行，且能保持界面风格的一致性，这对开发多场景应用系统至关重要。在界面设计方面，PyQt5提供了丰富的UI组件库，从基础的按钮、文本框到高级的图表、3D控件应有尽有，同时支持Qt
快乐一生重要牛得芳草
3天前·故事领域创作者一个人，生活在现实社会中，吃亏啦，受委屈啦，想不通啦，常有的事。倘若整天围着自己那点儿小九九打转转，时时算计自个儿的利害得失，怎么能在生活中与别人处得融洽。人生永远在不停地做选择：选择读什么科系、做什么工作，结婚或不结婚、要不要有孩子，不同的选择造就出完全不一样的人生。有时候还常常后悔，如果当初自己如何如何，现在就不会怎样怎样......只要把人生看成是自己独一无二的创作，就
紫女李天元(心甘情愿)全章节在线阅读_(心甘情愿)全本在线阅读热门小说_
紫女李天元(心甘情愿)全章节在线阅读_(心甘情愿)全本在线阅读书名：心甘情愿主角：紫女李天元简介：普通人李天元穿越到了诸天无限的世界,成为了墨家弟子。虽然他的资质平平,但他意外绑定了"日记系统"。只要他坚持每天写日记,系统就会给予各种强大的奖励,包括仙武体质、天生武脉、天人武学等。有了这些独特的力量加持,李天元开始在这个危机四伏的江湖世界里崛起,最终成为一代奇才。可以关注微信公众号【随缘读】去回个
DL00478-涡轮叶片缺陷检测数据集yolo格式1300张左右
涡轮叶片缺陷检测数据集yolo格式1300张左右涡轮叶片缺陷检测数据集YOLO格式解析：提升研究与论文写作的关键要点在研究涡轮叶片缺陷检测的过程中，数据集的选择和格式处理是一个至关重要的环节。特别是当你打算通过卷积神经网络（CNN）等深度学习模型进行缺陷检测时，数据集的标注和格式化直接影响到模型的训练效果和论文的质量。本文将重点探讨涡轮叶片缺陷检测数据集的YOLO格式，并分析如何利用这一格式为研究
蒋勋《人生十讲》叶小静Stamy
每次读蒋勋，都有收获。上一次大规模地读是大三大四，蒋老师的声音陪我走过那段迷茫浮躁的时间。这一次偶然在书店又遇到这本书，内心又被其中的观点给震撼。原来很多问题，我还是缺少深入思考。比如教育。工作两年，虽对教书感兴趣，但育人一直投入不够。很多时候看学生懒，总觉得孺子不可教。却忘了这个年纪正是学生迷茫的年纪，需要关心和爱。爱这个字谈起来好像总觉得空洞，让人有种难以启齿的感觉，但这可能正是我们不懂如何爱
分类模型（BERT）训练全流程巴伦是只猫人工智能分类 bert 数据挖掘
使用BERT实现分类模型的完整训练流程BERT(BidirectionalEncoderRepresentationsfromTransformers)是一种强大的预训练语言模型，在各种NLP任务中表现出色。下面我将详细梳理使用BERT实现文本分类模型的完整训练过程。1.准备工作1.1环境配置pipinstalltransformerstorchtensorflowpandassklearn1.2
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

Efficient Large-Scale Language Model Training on GPU ClustersUsing Megatron-LM

Efficient Large-Scale Language Model Training on GPU ClustersUsing Megatron-LM

1 INTRODUCTION

2 并行化模型

2.1 数据并行化

2.2 流水线并行模型

2.2.1 Default Schedule

2.2.2 带交错阶段的调度Schedule with Interleaved Stages

2.3 Tensor Model Parallesim

3 PERFORMANCE ANALYSIS OF PARALLELIZATION CONFIGURATIONS

3.1 符号

3.2 Tensor and Pipeline Model Parallelism

3.3 Data and Model Parallelism

3.3.1 流水线模型并行

3.3.2 Data and Tensor Model Parallelism

3.4 Microbatch Size

3.5 Activation Recomputation

4 IMPLEMENTATION

4.1 Communication Optimizations 通信优化

4.2 计算优化

5 EVALUATION

5.1 End-to-End Performance

5.2 Comparison to ZeRo-3

5.3 流水线并行

5.3.1 Weak Scaling 弱扩展性能

5.3.2 Interleaved versus Non-Interleaved Schedule 交错v.s. 非交错流水线调度

5.4 Comparison of Parallel Configurations

5.4.1 Tensor v.s. Pipeline 并行

5.4.2 Pipeline v.s. Data 并行

5.4.3 Tensor v.s. data 并行

5.5 Microbatch Size

5.6 Activation Recomputation

7 DISCUSSION AND CONCLUSION

你可能感兴趣的:(读论文,语言模型,深度学习)