点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
2021年11月9日,英伟达GTC大会顺利开幕!相信不少同学已经看到了刷屏的"Toy-Me"虚拟形象。本文将重点带大家回顾一下这次GTC大会上NVIDIA的一些AI前沿技术。
今年 GTC 上一共推出65个全新的以及更新的SDK,信息量相当之大。先看看下面这张图,这才是"真·全栈"AI生态系统。
回到GTC大会,初始映入眼帘的还是那个熟悉的厨房~
随后不久,便播放了一段"i am ai"的短片,快速展示了NVIDIA的落地应用和技术实力。
NeMo Megatron 加速大型语言模型开发
NVIDIA NeMo Megatron 是基于Megatron而开发的项目。其中Megatron是一个基于PyTorch的框架,用于训练基于Transformer架构的大型语言模型。
NeMo Megatron 让训练具有数万亿参数的大型语言模型(LLM)变得可能,而且据我了解,目前市面上鲜有这样支持大型语言模型的训练框架,这个实实在在的"利好"各大企业,特别是资源受限的情况下。不管你的语言模型多么复杂,经过NeMo Megatron 优化,可以极大提高训练的效率。解决训练难题后,便可以迁移到对话式AI(比如聊天机器人)等应用,进一步提升产业自动化效率。
比如可以训练前不久发布的"5300亿参数的「威震天-图灵」"的Megatron 530B。Megatron 530B 又称为Megatron-Turing (MT-NLP),其是英伟达和微软共同推出的目前世界上最大的可定制语言模型。
聊到语言模型,就不得不提近几年大火的Transformer!而NVIDIA专门针对Transformer架构的模型进行了分析和训练优化,使得训练大型语言模型变得可能。
NVIDIA AI 推理平台重大更新
模型训练好了,当然就需要推理部署用起来(一条龙服务)。推理响应速度越快,所带来的效益就越大,因此各大厂商都一直致力于加快模型推理,而NVIDIA在这一方面更是做到极致。
英伟达创建了世界上第一个分布式推理引擎:NVIDIA Triton,可以为所有AI模型、框架提供跨平台推理。
这次GTC大会上发布了Triton推理服务器的重大更新,其中包括:Triton 模型分析器、多 GPU 多节点功能(支持基于Transformer的大规模语言模型,例如Megatron 530B)、RAPIDS FIL和Amazon SageMaker 集成等等。
有意思的是Triton推理服务器可以自动为模型选择最佳配置,这个实在太方便了。而且它不仅支持深度学习模型,还支持传统机器学习模型,比如随机森林和梯度提升树。虽然DL大火,但很多经典ML模型应用依然广泛,所以显得Triton非常实用。同时还支持PyTorch、TensorFlow等多种深度学习框架,大大降低用户的迁移成本和维护成本。
实际拿Megatron 530B来举例,通过Triton推理服务器,Megatron 530B能够在两个NVIDIA DGX系统上运行,将处理时间从CPU服务器上的1分钟以上缩短到半秒,使得实时应用部署大型语言模型成为可能。
除了Triton外,这次发布还包含对NVIDIA TensorRT的更新。实际做过AI模型部署的同学,应该会对TensorRT比较熟悉了,其主要是为NVIDIA GPU上的高性能推理提供运行时优化。目前该最新版本是TensorRT 8.2。
TensorRT 已经与TensorFlow、PyTorch集成,只需一行代码就能提供比框架内推理快3倍的性能。这使得开发人员采用极为简化的工作流程就可以体会TensorRT的强大功能。
除了上述软件更新之外,NVIDIA还推出了NVIDIA A2 Tensor Core GPU,这是一款用于边缘AI推理的低功耗、小尺寸的加速器,其推理性能比CPU高出20倍。
NVIDIA Riva 新增定制语音功能
NVIDIA Riva 定制语音是NVIDIA Riva 语音 AI 软件的一项功能,它提供了强大的功能:使用少量数据即可在数小时内开发富有表现力的定制语音。在GTC大会上,有一段Riva定制语音的演示,展示了只需30分钟的数据就能创造出类似人类的新的声音。
Riva还通过Project Tokkio、DRIVE Concierge和Project Maxine在Omniverse Avatar中得以展现。
在我看来,NVIDIA Riva定制语音的落地应用会相当广泛,比如目前大火的虚拟形象(如虚拟偶像、虚拟主播等)就相当依赖这种技术。而且可以帮助公司、学校甚至个人打造属于自己的"专属声音",比如帮助公司的聊天机器人(语音版)"真人化"。
值得提醒一下:在GTC上,有二十多场专注于对话式AI的演讲,包括Hugging Face、Snap、T-Mobile等公司的演讲。演讲主题涉及开发和整合GPU加速的语音和语言AI应用等方面最先进的算法、工具、挑战以及效果等。
Clara Holoscan 医疗健康行业的新计算平台
NVIDIA Clara Holoscan是英伟达推出的第三个机器人平台,即:医疗健康行业的新计算平台。基于NVIDIA AGX Orin打造,能为可扩展、软件定义、端到端流媒体数据处理的医疗设备提供所需的计算基础设施。
Clara Holoscan 是一个性能强大的可编程影像平台,目前已具有医学图像分割、2D/3D医学数据可视化、手动/语音交互式操作、智能诊断等功能。我看了下面的演示视频,感到十分惊艳。Clara Holoscan这个平台和医疗设备厂家深入合作,一定可以促进AI医疗领域发展,为医疗专业人员提供更好的诊断工具,在分析病人病情、机器人辅助手术等方面提供帮助。
作为可扩展的体系架构,Clara Holoscan 能够从医疗设备扩展到NVIDIA 认证边缘服务器,再到数据中心或云中的NVIDIA DGX 系统。开发者可通过此平台,按需在其医疗设备中充分添加或减少计算和输入/输出功能,从而平衡延迟、成本、空间、性能和带宽的需求。
cuNumeric
在本次GTC大会上,我还看到一个可以快速访问使用的"神器":cuNumeric,也许可以帮助你加快当前项目代码中的Numpy部分计算。
Numpy是我们经常用的Python的扩展程序库,而NVIDIA正式推出针对Numpy的插入式加速库cuNumeric。无需更改代码!从单一GPU扩展到多GPU,扩展到多节点集群,进而扩展到世界上最大超级计算机。
而且在GTC上还看到一个数据:过去15年里,CUDA下载量高达3000万次!而仅去年下载量就突破700万次!不得不感叹:这得帮助打造多少款落地应用呀,CUDA YYDS!
GTC大会上还有很多精彩内容,比如"元宇宙"十足的Omniverse Avatars、重磅发布的Jetson AGX Orin、NVIDIA Quantum-2网络平台、在自动驾驶领域的成果展示等,以及刷屏的"Toy-Me"虚拟形象:
强烈推荐学习!如果你未能第一时间参加GTC大会,想了解更多的AI前沿技术和应用,则可以扫描或者点击阅读原文,即可观看录播视频~
扫码观看GTC大会视频
点击阅读原文,也可快速观看大会视频!