NVIDIA GTC主题演讲内容学习<3>

宝马每分钟生产一辆汽车,每辆车大约有25000个零件,工厂车间随时都会有500玩件零件。

在今年4月的GTC大会上,宝马曾向我们展示了如何构建雷根斯堡工厂的数字孪生,此后,他们已扩展到其他三家工厂,总面积达1000万平方米。
他们的工程师正在使用基于Omniverse构建的Isaac Gym来教授他们机器新技能,让我们来看看宝马公司正在建设的数字孪生工厂,
宝马工厂正在持续构建中,我们在今年早些时候向您展示的其工厂未来计划,他们平均每分钟生产一辆新的汽车

这一计划扩展到现在,涵盖其他三家工厂的数字孪生项目,总面积超过600万平方米,要满足宝马不断改进和创新的需求,需要仿真复杂的生产场景,各方面加快输出,提高敏捷性并优化效率。

NVIDIA Omniverse能够随时随地在宝马需要时推出新的仿真功能,以便作出重要决策并引入自动化,宝马及其合作伙伴也一直在连接新的用户和工具,扩大Omniverse生态系统,Omniverse覆盖宝马未来工厂的方方面面,使宝马能够在整个工厂层面到全面工程细节中,展开协作和仿真。
爱立信正在构建整个城市的数字孪生,以配置、运营和持续优化其5G团天线和无线电天线。

这是一个非常好的案例,未来五年内,全球将部署1500万各5G基站,Ericsson正在使用NVIDIA Omniverse构建数字孪生环境,帮助确定如何放置和配置每个站点以获得最佳覆盖范围和网络性能
在Omniverse中,Ericsson构建的城市规模的模型,在建筑物、植被和树叶材质上具有物理级准确性,然后添加每个发送端的精确位置、高度和天线模式等无线网络组件。
Ericsson构建了一个自定义的Omniverse扩展程序,使其能够集成无线电传播数据,并利用Omniverse的RTX加速光线追踪来快速可视化和计算城市中
每个点的信号质量,由于Omniverse材质具有物理级准确性,因此反射的强度也是精确确定的天线波束成形和信号路径可以得到精确仿真和可视化。在仿真中,波瓣表示发送端,天线波束成形,直线表示信号路径,信号路径的颜色表示分贝的强度和数据吞吐量,其中蓝色表示最弱的强度,红色表示最强的强度。对于Ericsson而言,可视化是一个关键功能,借助Omniverse VR,网络工程师可以虚拟探索模型的任何部分
1:1的速度传送到世界各地,当其调整网络以获得出色性能或识别路径中断时可以真正地“看到”,实时调整的效果,即在现实中看不到的东西!在Omniverse中,Ericsson可以对整个5G网络执行逼真远程仿真,从而能够设计出更高效、更靠谱的网络进行远程现场试验并加快部署速度

总有一天,这组天线将使用AI来学习最佳波束形成和信号强度,以优化城市的服务质量和吞吐量,同时节约能源。

如您所见,Omniverse是创建AI系统的数字孪生虚拟世界的基础平台,让我们来谈谈AI模型和系统的构建。
图是这个世界数据的原生格式,是自然的数据结构
CNN从空间数据中学习,RNN学习序列,而图神经网络可以学习关于分子如何在蛋白质中相互连接,人们在社交图谱中如何互联,道路如何与城镇相连,所有这些可以描述为图。
NVIDIA GTC主题演讲内容学习<3>_第1张图片

Deep Graph Library(DGL)是一个用于现有深度学习框架之上实现图神经网络的Python库。我们正在与DGL社区合作,以加速GNN处理,就像我们对CNN、RNN和Tranformer所做的一样,从构建图,到采样子图,再到将图映射到RNN框架中,我们一直在加速这一工作流程以便开发者可以训练和推理具高达数十亿和数万亿条边的图,GNN是金融服务、药物研发、数字生物学和网络安全的新首选模型。
早期参与我们关于图形工作的合作伙伴已取得了显著成果。NVIDIA GTC主题演讲内容学习<3>_第2张图片
PayPal显著改进了对串通欺诈的检测。
Amazon用它来改进Amazon搜索并减少滥用和欺诈的卖家和买家,他们处理了以前无法处理的图的大小。
Pinterest将搜索和推荐的覆盖范围扩展到5亿用户,我们将在12月提供抢先体验版。
NVIDIA GTC主题演讲内容学习<3>_第3张图片

Transformer是可以“并行”学习模式的模型,这一突破极大加快了语言模型的训练从而实现了自监督的语言学习,超大规模的自监督学习的Transformer可以不再受人类数据标签的限制,而是受益于互联网海量的数字知识,大型语言模型的最新突破是计算机科学的重大成就之一。

在自监督的多模态学习和模型中,有一项令人兴奋的工作正在进行中,它可以完成它从来没有被训练过的任务,这就是零样本学习,仅去年一年就有十余个新模型发布,训练LLM(大型语言模型)需要极大的勇气,耗资一亿美元的系统、持续数月在数PB数据上训练万亿参数模型,离不开强大的信念、深厚的专业知识和优化的堆栈。
我们创建了Nemo Megatorn,这是一个专门训练拥有数十亿、数万亿参数的语音和语言模型的框架,此框架已经过优化,可水平扩展至巨大的系统、并保持非常搞得计算效率。
我们得研究人员曾在NVIDIA得500节点Selene DGX SuperPOD上,仅用11天完成了GPT-3训练,并与Microsoft一起在仅仅6周内完成了Megatorn MT-NLG 5300亿参数模型的训练!

GPT是Generative Pre-training Transformer的简称,
是由Alec Radford编写的语言模型,
2018年由埃隆·马斯克的人工智能研究实验室OpenAI发布。
GPT-3 是著名人工智能科研公司 OpenAI 开发的文字生成 (text generation) 技术,
相关论文5月份已经发表,以天文数字级别的1750亿参数量引发学界轰动。

借助Nemo Megatron,任何公司都可以训练最先进的大型语言模型,完成训练后,我们如何运行大型语言模型呢?推理响应时间必须足够快,才有效用。
在高端双Xeon Platinum CPU服务器上,Megatron 530B模型的推理需要超过一分钟的时间,对于许多应用而言,这基本无法使用,GPU加速的模型也很有挑战性,因为模型尺寸要求远远高于GPU的显存大小,GPT-3有1750亿参数,至少需要350GB的内存,Megatron有5300亿参数,需要超过1TB的内存。

因此我们创建了世界上第一个分布式推理引擎NVIDIA Triton,该引擎现在可在多个GPU和多个节点之间进行分布式处理,GPT-3将轻松运行在8-PU服务器上,Megatron 530B将分布部署在2个DGX系统中,性能强大无比,从超过一分钟缩短到半秒。
大型语言模型(LLM)的性能和含义非常深刻,LLM可以回答深奥的领域问题、理解和总结复杂的文档、翻译、语言、编写故事、编写计算机软件、理解意图、在没有监督的情况下接受训练,并且无需样本,这意味着其可以执行任务而无需使用任何样本训练。

LLM基于常规知识进行预训练并可接受在训练,以有效服务于新领域,世界上80%的人主要使用20到35种语言,我们可以轻而易举地找到一百个工业或科学领域

其中有大量的用例:
瑞典正在努力使其历史数字化;
三星正在为南美超过2亿以葡萄牙语为母语的人士打造智能扬声器;
VinBrain正在训练一个用于医疗健康领域的越南语LLM;
京东正在为其电子上午服务构建一个LLM,以服务其5亿客户群体;
Rakuten正在为其数字服务构建一个日语的LLM;
ServiceNow正在构架一个IT/帮助台聊天机器人,全球最大的收集制造商之一的小米正在打造一个AI助手。

为新语言和领域定制大型语言模型可能是有史以来最大规模的超算应用,有许多AI模型现已成熟并已工业化,以供企业广泛使用,计算机视觉、语音识别、推荐系统、图和树、时间序列模型、生成模型、可变编码器、以及现在的大型语言模型。NVIDIA GTC主题演讲内容学习<3>_第4张图片
AI在全球各行业的领先公司中应用并表现出色,很高兴看到这些公司在GTC展示他们的工作-请务必去观看他们的演讲。
现在有25000家公司在NVIDIA平台上运行着AI,金融公司希望减少存在于每天超过10亿次信用卡行为中的欺诈行为,每年给公司和消费者造成的损失超过350亿美元,客户和客服中心不堪重负,每天有超过5亿各电话,这是一个价值200亿美元的行业,当然电子上午产婆和服务的推荐,这即将成为10万亿美元的行业。
对于所有公司来说,自动化对企业增长至关重要,AI是我们所知的最强大的自动化技术。

对于我们大多数人来说,视频会议是当今非常重要的应用,人每天要做150万亿次会议纪要。
微软拥有超过2亿活跃用户,我们很高兴与微软合作,开发28种语言的实时字幕,对于那些失聪或有听力障碍的人来说,这是一个价值非凡的功能。
每个字幕会议都经过个性化设计,每个会议都能够理解人员姓名和特定行话。视频会议技术正在飞速发展,展望未来,视频会议将采用更多AI技术。

除了背景和 降噪,AI将被用于实现各种惊人的功能:语言法医、眼神交流、光效调整等,让我们来谈谈推理。
AI是一种编写软件的全新方式,而推理则运行由AI编写的软件,推理的挑战来自多个维度。
网络计算强度很高,但这仅仅是个开始,AI是数据驱动的,因此数据的移动、数据的处理和后处理都将影响其性能。
NVIDIA的CUDA GPU架构在处理这一端到端流程方面大放异彩。
AI应用有不同的要求:响应时间、批处理吞吐量或连续串流,不同的用例会使用不同的模型,深度学习架构非常复杂。
有不同的框架,有不同的机器学习平台,有不同的平台和不同的操作环境,包括云、企业网、边缘和嵌入式系统有不同的对于保密性、安全性、功能安全性和可靠性的要求,世界上有大量的CPU和GPU的装机量,使用着不同的CPU和GPU,每个都有不同的功能和性能特征。
所有这些要求的组合是巨大的,推理可以说是世界上最具有技术挑战性的运行时引擎之一。
今天,我们将进行推理工具至今重大的一次发布。

首先,NVIDIA的TensorRT编译器已原生集成到TensorFlow和PyTorch,许多开发者直接使用框架进行处理,这种方法简单有效,但慢。
现在,使用一行代码,机器学习开发者,即可轻松获得3倍加速,仅一行代码,树模型无处不再-特别是在金融领域,这很容易理解,需要添加新的预测功能,而不必担心性能退化。

今天,我们宣布,我们的Triton推理服务器能对深度学习以及机器学习模型进行推理,性能非常出色,具有变革性,以下是IEEE欺诈检测数据集相关示例,其目标是提高检测率,同时及响应以阻止交易。
在此图表中,目标在红线的右侧,红线表示1.5毫秒,为允许的最长处理时间,对于小规模的树,CPU和GPU都可以采用此方法,然后,需要较大规模的树,才能提高检测率,此时GPU的推理时间仍短于1.5毫秒,而CPU则需要3.5毫秒,这个速度太慢,无法阻止交易。
有了这个发布,我们将NVIDIA GPU向经典机器学习推理的世界开放。

现在,通过一个推理平台,Triton允许您在GPU和CPU上推理深度学习和机器学习,宣布对我们的Triton推理服务器进行重大升级

对所有模型、各种框架、多查询类型的推理、机器学习和深度学习,面向所有平台、云、本地、边缘和嵌入式系统、多GPU、多节点在CUDA、X86和Arm上。

NVIDIA Triton这一种引擎适用于所有推理工作负载,Triton的性能非常出色:从图像处理到AI语音、自然语言处理、推荐系统和强化学习,对云服务商而言,Triton将提高其基础设施的利用率和吞吐量,释放其基础设施容量,以应对新的增长。
对用户而言,Triton可提高吞吐量,同时降低成本。
这是NVIDIA平台的主要优势之一,凭借我们的全栈优化和丰富的生态系统,客户可以在其余生命周期中享受性能的提升和各种新功能,购买多年后,我们的芯片不断变得更快更好,买的越多,省的越多。

每个行业的每家公司都在寻求提高自动化程度,要实现自动化,我们需要对计算机进行编程以识别模式,并重复安全地执行任务。
我们所处的世界是非结构化的,人类在无限范围内执行的任务的范围,是无法用程序和规则进行描述的。

你可能感兴趣的:(虚拟机平台,可视化,计算机视觉,测试类型,设计模式)