2019年12月16日-19日,一年一度的英伟达GPU技术峰会(NVIDIA GTC China 2019)在苏州举行。作为迄今为止最大规模的一届GTC China,本届峰会共有超过6000名科学家、工程师、开发者与企业家参与。
12月18日上午,本届GTC China迎来了最重磅的环节——英伟达创始人兼首席执行官黄仁勋的演讲。黄仁勋也果然没有让人失望,两个小时的演讲围绕一个核心主题“加速计算”展开,涵盖了云游戏、RTX技术、基因测序、NVIDIA HPC for Arm、最新一代TensorRT 7、自动驾驶芯片NVIDIA DRIVE AGX Orin、机器人开放平台Isaac7大环节,集中展示了英伟达在图形、HPC和AI方面的最新进展。
在令人目不暇接的演讲内容中,最“核弹”的当属面向自动驾驶和机器人的芯片NVIDIA DRIVE AGX Orin,以及最新一代推理软件开发套件NVIDIA TensorRT 7编译器。
专注加速计算25年,英伟达越来越“软”
“英伟达处在图形计算、HPC和AI的交汇点。”
黄仁勋在演讲中如是说道。这是对英伟达产业链角色非常准确的定位。英伟达用一套统一的架构,借助通用型的GPU芯片,赋能从游戏、自动驾驶、到医疗、云计算数据中心在内的广泛的智能应用场景。
迄今为止,英伟达已经售出了15亿块GPU芯片。但是,在演讲和媒体采访中,黄仁勋一再强调英伟达无比注重软件,今天发布的新品中只有一款硬件芯片,其他都是软件套件、软件平台和软件应用。
通过软件栈的改进提升GPU性能,英伟达让深度学习训练在3年内提高4倍,深度学习推理在1年内提高了2倍。
会上,英伟达AI芯片家族,包括面向训练的DGX系列,面向超大规模云的HGX系列,面向IOT和边缘的EGX系列,以及面向自动驾驶和自主机器人系统的AGX系列。英伟达AI芯片从云到边缘,覆盖各行各业。
当被问到英伟达何时推出7nm制程的芯片时,黄仁勋表示,制程对芯片性能很重要,但不是最关键的。加速计算的时代和CPU时代不同,如何让芯片达到最高性能有很多因素,首先是架构,然后要有算法、软件、应用的共同合力提升性能。去年英伟达发布的图灵架构的芯片就是12nm,但依然性能强劲。
7倍Xavier性能的自动驾驶芯片Orin
黄仁勋一直强调,未来的自动驾驶系统是软件定义。此次发布的自动驾驶芯片Orin正是这样可扩展、可编程、软件定义的AI平台。
Orin拥有多达170亿个晶体管、8核64位CPU,200TOPS的深度学习能力,是前代Xavier的7倍。Orin兼具了高性能和软件定义,易于编程,而且与Xavier相兼容。Orin具有很强的扩展性,适用于从L2到L5级自动驾驶开发。Orin计划于2022年开始投产。
会上,黄仁勋还宣布与共享出行巨头滴滴深度合作。滴滴将在数据中心使用NVIDIA®GPU训练机器学习算法,并采用NVIDIA DRIVE为其L4级自动驾驶汽车提供推理能力。据悉,滴滴将很快在上海开始基于NVIDIA DRIVE技术的测试车队。
NVIDIA DRIVE的全球生态系统日益庞大,几乎每家自动驾驶汽车领域的企业,都在其计算堆栈中使用NVIDIA的解决方案。面向汽车制造商、卡车制造商、自动驾驶出租车公司、软件公司和大学等众多合作伙伴,英伟达为其提供了端到端的基础设施、训练模型、开放的软件开发平台以及丰富的测试模型。
现场,黄仁勋还展示了一段NVIDIA DRIVE自动驾驶在美国实际道路行驶的demo。NVIDIA DRIVE借助多个深度神经网络融合来自各类传感器(摄像头、激光雷达、雷达等)的数据,能够实现对汽车周围环境360度全方位的理解。自动驾驶车辆不但顺利完成遵守交通灯、变道、进出匝道、会车等动作,初次行驶的道路,还会自动生成动态地图,加入到车辆地图库中。
阿里、百度推荐系统背后的TensorRT 7
此次,英伟达发布了第七代推理软件开发套件NVIDIA TensorRT 7编译器。会话AI是TensorRT 7的典型应用场景。
与在CPU上运行时相比,会话式AI组件速度提高了10倍以上,从而将延迟降低到实时交互所需的300毫秒阈值以下,让语音助手与人类的实时交互成为可能。目前,阿里巴巴、百度、滴滴出行、美团、快手、平安、搜狗、腾讯和字节跳动等头部互联网公司都在使用TensorRT 7的会话式AI加速功能。
会话AI之外,深度推荐系统(Deep Recommender Systems)也是TensorRT 7的一大应用场景。
信息爆炸时代,互联网上的新闻、商品、内容呈井喷态势,每一个使用互联网的用户每一次找到所需的内容都要靠推荐系统。推荐系统可以说是互联网发展的引擎。海量数据的不断增加,深度技术的发展,让深度推荐系统成为互联网公司的标配。黄仁勋介绍,目前互联网巨头的推荐系统正在从过去基于CPU转为基于GPU。
目前,NVIDIA AI的100多个推荐模型被应用到百度的多款应用中。用GPU训练深度推荐系统,成本只有CPU的十分之一。
阿里巴巴的推荐系统同样使用的是NVIDIA AI。此前基于CPU,每秒查询率(QPS,Queries-per-second)只有3次,NVIDIA AI则提升到了每秒780次查询。
此外,黄仁勋还在演讲中展示了在游戏、建筑、基因测序等应用领域,英伟达GPU生态的进一步扩展。
英伟达GPU技术为腾讯游戏的START云游戏服务赋力。同时,去年发布的RTX(实时光线追踪,Real Time Ray Tracing)技术也进一步落地。借助英伟达RTX技术,一个人组成的工作室也能制作出逼真的光影和反射效果。
今年3月,英伟达在GTC全球峰会上发布了基于RTX技术发布了实时的3D制作协作平台NVIDA OMNIVERSE。今天,英伟达发布了面向建筑行业的NVIDA OMNIVERSE。
此次,英伟达还发布了NVIDA基因组分析工具包Parabricks,其可以利用深度学习技术进行基因变异检测。目前华大基因已经采用Parabricks,借助若干GPU服务器,可以大大加速处理基因组的速度。
回顾下来,一个架构、软件定义、加速运算成为了本届GTC China的关键词。而在本届GTC上,英伟达也强力释放了一种声音:通过多项创新技术与生态合作,全面加速AI落地。