老黄来了!
这次化身“皮衣英雄”站在了苏州金鸡湖国际会议中心并不大但却很炫酷的舞台上。
尽管作为迷弟迷妹大军中的一员,这次仍旧没能得到黄教主的亲笔签名,连乔装电梯内偶遇并成功拍照的桥段都没法子实现……甚至都未能在keynote之后的媒体群访环节中,近距离看到这位中文说的不好但时不时蹦出一两句的“华人骄傲”。
尽管在之后的一段时间内,一度有人推测称,这次缺席实则有意躲避英伟达最近频频爆出的负面新闻,如股价腰斩、加密货币的不良影响等……
不过其余参加媒体群访的NVIDIA高层倒没有想象的那么紧张。对此NVIDIA全球市场运营执行副总裁Jay Puri甚至放出了“明话”,股价暴跌确实“出人意料、超出预期”,但原因还是多样的,这些纯粹是“可以接受的负面影响”,预计在“未来的1-2个季度,能够看到形势变好的情况”,相对来说,“游戏一直都是NVIDIA公司都是非常重要的业务”……
不过说到这项“非常重要的业务”,老黄在GTC现场演示的那款《逆水寒》确实引来众多惊叹。
作为网易精心打造的、也是国内首款采用Ray Tracing光线追踪技术和DLSS加速的RTX游戏,光线追踪 + DLSS 帮助其成功实现了 3.5 倍的性能提升,生动赋予盔甲、武器、水坑等多种游戏元素栩栩如生的反射,从明暗度、镜面反射效果来表现了RTX显卡技术的强大,准确反映周围世界的同时,我们更加惊叹于精确的算法和强大计算能力在背后的支持。
毋庸置疑,老黄就是老黄,虽然看似一个每年在特定时间出现的“带货专家”,但站在那里总有办法能够引人关注;而每次精心准备的keynote,也总能让人顶礼膜拜、意犹未尽。言而总之,就是在激情与干货中high翻全场!
提到干货,这次姑苏城内的精彩演讲,我们似乎深深体会到在重启HPC新生态方面,老黄可是卖了大力气、下了狠工夫。
所以大家在现场会看到,除了“崭新HPC市场必然会有科学计算、数据科学以及AI参与”的论断之外,更重要的是以超高性能计算机HGX-2、RAPIDS机器学习平台以及号称首款图灵架构的Tesla T4 GPU为代表的重头产品们争先恐后、一涌而出。
据了解,本次亮相现场的 HGX-2 服务器平台已经被广泛采用,作为全球范围内强大的加速服务器平台,英伟达对外宣称该产品适用于 AI 深度学习、机器学习和高性能计算。
具体来说,HGX-2 具备 NVIDIA NVSwitch™ 互联结构等突破性功能,将 16 个 NVIDIA Tesla® V100 Tensor Core GPU 无缝连接一起,就会形成一个巨型 GPU,在单节点中可以提供 2 千万亿次的计算性能,还具有 0.5 TB 内存和16 TB/s 总内存带宽。
与单纯使用 CPU 服务器相比,该服务器平台可以将 AI 机器学习工作负载的运行速度提升近 550 倍,将 AI 深度学习工作负载的运行速度提升近 300 倍,将高性能计算工作负载的运行速度提升近 160 倍。
此外,HGX-2 云服务器平台还具有多精度计算能力,具体融合了高精度 FP64 和 FP32,可以实现精确高性能计算;同时融合更快速的低精度 FP16 和 INT8,能够为深度学习和机器学习提供服务。
如此强大的性能优势,就有了百度和腾讯将借助 HGX-2为内部应用及云客户提供一系列更强大的AI服务这样的合作;就连甲骨文也于上月宣布其计划为云基础设施部署 NVIDIA HGX-2 平台,并将采用裸机和虚拟机两种实例,便于用户轻松访问统一的 HPC 和 AI 计算架构。
值得提及的一点,浪潮作为国内首家构建 HGX-2 服务器的厂商,基于NVIDIA HGX-2平台的浪潮AI超级服务器AGX-5,专为解决当前AI深度学习和高性能计算的性能扩展难题而设计。浪潮集团副总裁彭震表示:“浪潮与NVIDIA一直保持着长期并深入的合作,作为双方合作的最新成果,基于NVIDIA HGX-2平台的AI超级服务器AGX-5 AI,其计算性能高达2PFlops,未来将为全球AI用户带来令人惊喜的AI创新加速体验。持续推动产品创新与GPU生态建设,是我们共同的目标!”
此外在这场有关HGX-2 的“饭局”中,联想、华为、曙光也已宣布加入其中并力争合作!
对此,NVIDIA 副总裁兼加速计算总经理 Ian Buck对记者们说:“中国领先的科技公司正在迅速利用史上最强云节点 HGX-2,借助 HGX-2 无与伦比的计算能力和通用性设计,中国以及全球各地的公司现在能够构建全新可扩展的产品和服务,以解决巨大的计算难题和当今一些最紧迫的问题。”
超高性能计算机HGX-2夺人眼球不假,黄仁勋还顺势进一步肯定了加速计算的“优越感”。
他表示,“GPU 加速数据科学,从小时到分钟、端到端的模型训练可以缩短到分钟级,相当于包含16年的抵押贷款数据集400GB!”
我们知道此前英伟达GPU中的TensorCore专为深度学习设计,但深度学习只是机器学习的一个分支罢了,在一些相对复杂的场景中,深度学习往往不足以完成任务,这时候就需要引入其他机器学习的技术,如今通过RAPIDS平台,英伟达能够让GPU加速计算应用到更多机器学习的算法与场景中。
据了解,目前RAPIDS已经被非常广泛的采用,例如华大基因、中国移动、平安科技等公司都宣布引入它完成机器学习加速,还有像探智立方、推想科技等初创企业,利用RAPIDS开源平台实现了技术上的创新突破。
其中,华大基因利用RAPIDS进行癌症基因检测,中国移动则进行了优化无线网络,平安科技选择用它来模拟大型疫情爆发情况。
可以想见,如今GPU已经成为了众多行业应用创新的基石与新动能,这一点在新产品GPU Tesla T4上更是表现突出。
据悉,面对这款专为AI推理而打造,并被称为是英伟达新一代图灵(Turing)架构的新款GPU,新华三、华为、联想、曙光等各大服务器制造商都有了“实质行动”,设计(并出货了)57种不同的服务器,而百度云、腾讯云、京东云、科大讯飞等巨头也都齐刷刷宣布开始采用Tesla T4 GPU。
这款拥有320个图灵张量内核+2560个图灵CUDA内核,其FP16的峰值性能为65TFlops、INT8为130TFlops、INT4为260TFlops性能的产品,同样吸引了浪潮的注意力。
关于这一点浪潮方面表示,基于NVIDIA GPU在易用和能效上的卓越特性,与其已共同协助全球众多的AI商业公司部署了高性能、低功耗、高带宽、低延迟的AI线上推理平台。随着NVIDIA新一代基于图灵架构的推理方案Tesla T4和TensorRT 5的发布,与NVIDIA共同推动全球AI生态的可持续发展这事儿可是妥妥的。
这边,HPC新生态表现精彩,那一直被英伟达青睐的自动驾驶新进展又如何呢?
据了解,就在刚刚过去的10月,英伟达的无人车在其研发的Drive平台支持下,在硅谷完成了50英里的无人驾驶测试。
与此同时,NVIDIA自主机器全球副总裁 Rob Csongor也表达了一些看法,从事实的角度来看,英伟达是一家芯片起家的公司,后来随着业务发展,对于“计算”核心业务实现了纵向集成,这也是谈到“自主驾驶系统”的原因。
“我们需要并提供了全面的端到端解决方案,因此也就必须了解,如果让车辆达到自动驾驶的程度,需要完成怎样的工作。例如从一体化集成的传感器到使用人工智能开发认知系统,再到本地的一些工程,例如地图、路径规划,甚至是加速部分等。”
据悉,目前NVIDIA DRIVE开发系统已经上市,每个加速堆栈由3层构成,分别是第一层核心操作系统和引擎API;第二层算法加速库以及特定于域的算法以及应用程序等,当然还包括最后的自主驾驶系统。
针对三层系统,英伟达做完“造车”工作之后就充分意识到,其实有很多工作并不能做到独自完成,例如传感器、物理车身部分。但一直以来,不管是在游戏行业还是在可视化领域,英伟达提供的都是一个开放的开发平台,可以为所有人去使用。
在自动驾驶系统方面,英伟达同样选择给用户更多的灵活性。“正如这是一个三层体系,最底层是硬件体系,第二层是软件体系、也就是基于CUDA,当然也可以选择最后一层,就是整个自主驾驶系统,如何使用?其中的灵活度较大!”英伟达方面表示。
关于目前已经上市的NVIDIA DRIVE开发系统,作为国内最大的卡车制造商之一,一汽集团在与自动驾驶初创公司智加科技(PlusAI)和物流公司满帮集团合作开发的无人驾驶商用卡车车队中,已经计划采用并将于2021年进行大规模部署;同时,知名汽车制造商沃尔沃也将采用英伟达的DRIVE AGX系列AI计算平台,为下一代量产车型提供L2级驾驶系统。
除了汽车制造商之外,国内一些自动驾驶初创企业也同时倾向于此,例如Weride.ai、Momenta、图森未来、AutoX以及Roadstar.ai等。
截止目前,有超过370家公司在自家自动驾驶生态系统中使用了Drive平台,相信用不了多久,这个数字就会越来越庞大。
讲到结尾,记者突然想到老黄的中文,诚然他的中文并不好,只能在精彩的演讲中时不时冒出来一两句,但这种中英夹杂所带来的效果确实成功地拉近了与现场听众的互动距离,也让大家觉得英伟达的货虽然有点儿小贵但还挺实在,但更重要且不容忽视的一点,我们都已发现,英伟达在AI 、芯片、GPU、计算、解决方案等所带来的创新与性能强大早已让业界一呼百应、不容小觑……