BERT训练问题(数据并行/模型并行)

最近在了解数据并行和模型并行相关的知识,主要从BERT模型入手学习(相关知识可以参考),其中AI硬(he)件(dan)厂商英伟达宣布,他们在NLP模型上取得了三大突破,为今后会话AI的落地应用铺平了道路。英伟达一举创造了2个壮举!训练出了世界上最大的语言模型——MegatronLM,包含83亿参数,比BERT大24倍,比GPT-2大5.6倍;还打破了实时对话AI的记录,仅耗时53分钟即可训练出行业标准BERT模型、2毫秒就能对答案做出推断!

英伟达用自己的硬件与并行计算软件相结合,在BERT模型的训练和推理上创下三项世界纪录:

  1. 最快的BERT训练速度,只需53分钟

  2. 最快的BERT推理速度,只需2.2ms

  3. 最大的BERT模型,包含83亿参数

英伟达用1472个V100 GPU首次实现在一个小时之内训练完BERT模型考虑到开发人员对大型NLP模型不断增长的需求,英伟达建立并训练了世界上最大的基于Transformer的语言模型GPT-2 8B它具有83亿个参数,是BERT-Large的24倍、GPT-2的5.6倍。GPT-2 8B模型使用原生PyTorch进行训练,在512 GPU上有8路模型并行和的64路数据并行。实验是在DGX SuperPOD上进行的,其基准模型为12亿个参数,适用于单个V100 GPU。在单个GPU上运行此基线模型的端到端训练pipeline可实现39 TeraFLOPS的算力,这是V100 GPU的理论峰值算力的30%。

BERT训练问题(数据并行/模型并行)_第1张图片

Megatron开源地址:
https://github.com/NVIDIA/Megatron-LM

Faster Transformer开源地址:
https://github.com/NVIDIA/DeepLearningExamples/tree/master/FasterTransformer

 

关于数据并行部分的介绍

BERT训练问题(数据并行/模型并行)_第2张图片

 

参考

https://tech.sina.com.cn/csj/2019-08-14/doc-ihytcitm9092021.shtml

https://www.sohu.com/a/333636928_100024677

https://www.toutiao.com/a6683065647456322056/

https://zhuanlan.zhihu.com/p/69389583

https://zhuanlan.zhihu.com/p/48035735

https://zhuanlan.zhihu.com/p/46652512

 

https://www.sohu.com/a/302778967_114877

https://www.jianshu.com/p/aa2eff7ec5c1

https://www.jianshu.com/p/63943ffe2bab

你可能感兴趣的:(自然语言处理)