英伟达H100用11分钟训完GPT-3,PyTorch创始人:不要只看时间

点击蓝字 关注我们

关注并星标

从此不迷路

计算机视觉研究院

952f3f58ef9f387a2007024985b3482e.gif

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

赢了,但没有全赢。

d33f1a51592c541ce3377f89fe39faf0.gif

昨天,老黄又「赢麻了」!

为啥呢?原来在最新的 MLPerf 基准测试中,英伟达 H100 GPU 芯片组在以下八项基准测试中全部创下了新纪录,同时成为唯一一个跑完所有测试的硬件平台。

据悉,最新 MLPerf Training v3.0 包含了基于 GPT-3 175B 的大型语言模型(LLM)测试,侧重于生成式 AI 能力。

英伟达H100用11分钟训完GPT-3,PyTorch创始人:不要只看时间_第1张图片

图源:MLPerf benchmarks。

LLM 训练测试中还使用了专注于 GPU 加速的云计算服务提供商 CoreWeave 提供的 NVIDIA HGX H100 基础设施,在多个规模上联合提交了 LLM 工作负载。

出来的结果令人振奋:在 896 个英特尔 Xeon Platinum 8462Y 和 3584 个英伟达 H100 芯片的合作下,仅仅用了 11 分钟就完成了基于 GPT-3 的 LLM 训练任务。

英伟达H100用11分钟训完GPT-3,PyTorch创始人:不要只看时间_第2张图片

一时之间,AI 社区响起了老黄赢麻了的欢呼声。

可结果真如此吗?今天有人对此事提出了质疑。

先是 PyTorch 创始人 Soumith Chintala,他认为 GPT-3 并没有在 11 分钟内训练完成。使用 3584 个 H100 GPU,GPT-3 架构在 C4 数据集上训练了 11 分钟,对数概率为 2.69。

这里不要只关注「11 分钟」,因为这就像说「ResNet-50 在 MNIST(其实这里他想说的是 CIFAR100)上,5 秒内训练达到了 80%的准确率。」

英伟达H100用11分钟训完GPT-3,PyTorch创始人:不要只看时间_第3张图片

推特用户 @abhi_venigalla 对 Soumith 的观点表示赞同,他是生成式 AI 创业公司 MosaicML 的研究者。他认为 MLPerf 基准测试中训练 GPT-3 的时间更可能是 2 天。

在他看来,该基准测试并不是完整的 GPT-3。MLPerf 的 LLM 基准只提供了一个开始的检查点,然后必须达到目标损失。

因此,该基准 11 分钟跑完 GPT-3 只覆盖 1.2B 的 token,而非完整的 300B token。此外看起来更像是 540 TFLOPs/H100,从配置上看像 FP8,~27% MFU。

不过他也承认,从 H100 在其软件生命周期早期这一点来看,以此规模实现现在这种性能也相当惊人。

英伟达H100用11分钟训完GPT-3,PyTorch创始人:不要只看时间_第4张图片

所以,最新 MLPerf 基准测试中 11 分钟训完 GPT-3 是不是被误解呢?评论区的小伙伴也可以发表下自己的观点。

© THE END 

转载请联系本公众号获得授权

ee3fc4909766ecffe872132c3edd9b41.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

VX:2311123606

英伟达H100用11分钟训完GPT-3,PyTorch创始人:不要只看时间_第5张图片

 往期推荐 

  • 轻量级MobileSAM:比FastSAM快4倍,处理一张图像仅需10ms(附源代码)

  • 基于分层自监督学习将视觉Transformer扩展到千兆像素图像

  • CVPR2023:浙大&南洋理工提出PADing:零样本通用分割框架(附源代码)

  • 目标检测新方式 | class-agnostic检测器用于目标检测(附论文下载链接)

  • 无需标注海量数据,目标检测新范式OVD让多模态AGI又前进一步

  • 中国提出的分割天花板 | 精度相当,速度提升50倍!

  • All Things ViTs:在视觉中理解和解释注意力

  • 基于LangChain+GLM搭建知识本地库

  • 大模型架构设计新范式,给神经网络架构增加了一个维度!

  • OVO:在线蒸馏一次视觉Transformer搜索

你可能感兴趣的:(gpt-3,pytorch,人工智能,python,深度学习)