关键字: [Amazon Web Services re:Invent 2023, Amazon EC2, Compute, Performance, Cost, 亚马逊云科技, Instance]
本文字数: 3300, 阅读完需: 16 分钟
亚马逊云科技提供最广泛的功能集,并在基础设施和服务方面不断创新,以便您可以在云端、本地和边缘构建、运行和扩展应用程序。请加入亚马逊云科技弹性计算云(EC2)产品副总裁 Dave Brown,了解亚马逊云科技正在为数百万组织提供的创新。Dave 将讨论亚马逊云科技如何开发定制的云优化硅,以及您如何利用亚马逊云科技计算创新,包括处理器、机器学习芯片和高性能存储产品。
以下是小编为您整理的本次演讲的精华,共3000字,阅读时间大约是15分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。
在2022年拉斯维加斯的re:Invent上,亚马逊云科技副总裁Dave Brown向与会者展示了亚马逊EC2计算领域的新颖创新。自2006年成立以来,EC2经历了指数级的惊人增长。Brown热情地欢迎观众参加2022年的计算领导力研讨会。
Brown回忆起2007年加入EC2团队时的情景,当时团队只有14个人,他们并不清楚正在创建什么。从那时起,EC2经历了令人瞩目的创新和发展。为了展示EC2所取得的成就,Brown回顾了2008年11月的一天,他们启动了第一个百万EC2实例。尽管当时这是一个重要的里程碑,但现在,客户每天启动的EC2实例超过一亿个!为了进一步强调其规模,Brown分享说,自那时以来,客户在亚马逊云科技上总共启动了令人难以置信的300亿个EC2实例。
尽管在过去的十五年里,EC2取得了指数级的增长,但推动创新的雄心和使命仍与2006年初创时相同。首先,EC2团队致力于为客户提供可靠和虚拟运行任何他们想要带到云端的工作负载的工具和服务。关键是让客户能够在亚马逊云科技上用EC2比在他们自己的内部数据中心更好地运行工作负载。
多年来指导EC2路线图规划的第二个指导原则是持续专注于提高性能的同时降低成本。Brown肯定地说,这一推动性能提升和成本降低的双重目标一直指导着为客户提供优质且不断增长的价值的努力。
自2018年起,EC2(Amazon Elastic Compute Cloud)与Epic Games建立了紧密的合作关系,因为后者完全依赖Amazon Web Services(亚马逊云科技)进行运营。作为全球最受欢迎的在线多人游戏《Fortnite》的开发商,Epic Games需要大量的基础设施容量来为超过1亿的玩家提供流畅的游戏体验。得益于拥有600多种不同的实例类型,EC2能够满足《Fortnite》数百万玩家的需求。每当推出新的章节或特殊限时活动,Epic Games都能够迅速扩大容量,甚至在短时间内处理数百万次的请求。尽管有时这些巨大的容量激增发生在提前通知时间很短的情况下,但无论发生什么,EC2的多功能性和敏捷性都使得Epic Games能够顺利运营其业务。最近,Epic Games将其大部分工作量迁移到Graviton 2处理器上,这不仅实现了更大的成本节约,还在灵活扩展方面表现出色。
在深入探讨EC2的Nitro系统时,Brown详细介绍了推动这一世界级规模和性能的高级技术。随着越来越多的客户开始将日益苛刻的工作负载带到Amazon Web Services,云计算的早期阶段,大约在2007-2008年,遇到了一些性能挑战。例如,随机延迟高峰和第99和99.9百分位数的异常值等问题阻碍了运行某些需要超低且一致延迟的性能敏感工作负载。
这引发了一个关键问题:如何改进虚拟化以在云中无缝地工作并满足客户对其自己的裸机服务器所期望的性能?当时,许多人谈论的是裸机工作负载,并对虚拟化的云实例能否达到性能和可靠性匹配的问题持怀疑态度。
当时在开普敦的Amazon Web Services高级副总裁Peter DeSantis与西雅图的传奇Amazon Web Services工程领导者James Hamilton会面。他们共同构思了将虚拟化处理的某些方面从软件卸载到专用硬件加速的初始想法。
詹姆斯了解到杰出的亚马逊云科技工程师纳菲·布沙拉博士及其为安纳普尔纳实验室定制硅芯片的工作成果。在一次西雅图弗吉尼亚酒店的啤酒活动中,詹姆斯与布沙拉首次探讨了将网络和存储I/O等功能卸载到专为效率定制的基于Arm的处理器的可能性。这一探讨成为了Nitro项目的起点。
最终在2015年,亚马逊云科技收购了布沙拉的公司安纳普尔纳实验室,并将其团队纳入亚马逊云科技。在2013年,亚马逊云科技推出了第一代Nitro卡,专门用于网络卸载。到了2017年,亚马逊云科技发布了首个完全支持Nitro的EC2实例,整合了多种功能。至今,Nitro仍是亚马逊云科技的独特优势,其他云提供商尚未大规模复制。
简单来说,Nitro将所有网络、安全和存储I/O处理卸载到专为每个工作负载定制的专用Nitro卡上。这使得主要CPU可用于这些功能的利用率降至0%,为客户应用程序释放了更多资源。从安全性角度来看,这是非常有益的。此外,它还消除了亚马逊云科技与客户代码之间的资源争用,使客户能够从每个处理器中获得最大性能。
Nitro卡使用自己的专用处理器独立处理所有网络、存储和安全处理。同时,亚马逊云科技定制的Nitro虚拟机管理程序在硬件和客户应用程序之间运行,为客户机提供了卓越的性能。亚马逊云科技设计和制造自己的包含Nitro安全芯片的服务器主板。这提供了硬件级的安全措施,如在系统启动时通过安全引导加密验证系统完整性。
重要的是,Nitro并未设计远程后门。这防止了亚马逊云科技员工直接访问客户的实例。诸如Nitro Enclaves之类的机密计算功能通过在安全的加密环境中隔离敏感的顾客数据来增强这种保护。
那么,Nitro如何实际惠及客户?在云计算的早期阶段,衡量标准理所当然地集中在CPU规格和指标上。然而,如今所有主要的云服务提供商都使用来自英特尔、AMD等的相同标准CPU,因此像SPECint这样的基准测试无法揭示提供商之间的性能差异。
Nitro在真实客户中的应用主要体现在其如何加速和优化整个应用程序栈,而不仅仅局限于CPU。通过将处理任务转移到特制的硬件上,Nitro在性能上明显优于竞争对手的云服务。例如,在memcached基准测试中,EC2实例比竞争对手快了22%。得益于Nitro的存在,Nginx在负载下的Web服务扩展速度提高了16%,而Redis数据库延迟减少了高达27%。随着应用需求不断增加且需要持续的低延迟,这些显著的收益将在规模扩张中发挥重要作用。
深入了解后,Brown强调了Nitro网络功能的主要进步。自2006年首个EC2实例提供1 Gbps的网络连接以来,随着需求的增长,Nitro卡在2019年达到了25 Gbps的网络标准。英特尔、AMD和Graviton驱动的最新一代实例现已内置了50 Gbps的Nitro网络。
2019年,亚马逊云科技推出了首个100 Gbps的优化网络实例,以增强实例之间的工作负载(如分布式机器学习训练)带宽。2020年,针对其他机器学习训练工作负载的新400 Gbps实例可以跨越数千个互连实例。今年,即2022年,亚马逊云科技宣布推出专为机器学习训练设计的800 Gbps Trainium实例。此外,彼得·德里斯(Peter DeSantis)展示了将于2023年推出的即将推出的1.6 Tbps实例,每个实例可达惊人的1600 Gbps。
同样重要的是,Nitro提高了每秒包数(PPS),这对于依赖极高交易量的低延迟工作负载非常有益。新的第六代英特尔至强可扩展实例具有200 Gbps的网络连接,展示了这个优势,相较于前几代,PPS性能翻倍。这些实例还将EBS网络连接升级为80 Gbps,拥有350,000 IOPS。与200 Gbps的网络带宽相结合,它们实现了280 Gbps的总吞吐量。
在存储方面,Brown介绍了Nitro SSD,这是亚马逊云科技首次利用Nitro基础设施的创新存储。传统上,更新商品SSD固件需要停机时间,这是一个主要问题。使用Nitro SSD,亚马逊云科技可以无缝地实时推送更新,而不会影响客户。这大大提高了可靠性,并实现了关键安全措施,如全磁盘加密。
According to internal benchmark tests, Nitro SSDs have reduced read and write latency by 60% compared to other SSDs. The company's new Torn Write Protection function utilizes capacitors to prevent data loss due to unexpected power outages during the writing process. This can increase transaction processing capability of database services like Amazon RDS by up to 30%. For example, Aerospike company saw a 70% performance improvement after switching to Nitro SSDs, as they were able to fully utilize the advantages of Nitro SSDs.
Turning to discussions about operational excellence, Brown invited Chief Technology Project Manager Jeremy Conner to the stage to discuss EC2's obsession with reliability. Conner explained how EC2 strives to minimize customer operational burdens through strict quality control measures such as startup times, availability, and reliability.
After continuous adjustments and optimizations, Nitro Linux instances reduced the time from idle to SSH-ready state by 29%. According to internal monitoring data, Amazon Linux 2 now launches 27% faster on EC2 than other Linux distributions. With the enablement of the new fast start option, Windows instances improved their readiness for remote desktop connection (RDP) by 65%, with some instances achieving up to a 73% acceleration.
As Amazon Web Services (亚马逊云科技) strictly reviews metrics like Annual Failure Rate (AFR), EC2's reliability has significantly improved. Through extensive monitoring, root cause analysis, and real-time migration of instances for seamless maintenance, Amazon Web Services has achieved a 62% reduction in AFR over the past two years. To put that into perspective, EC2 performs real-time migrations of over 1 million instances per week, allowing critical infrastructure updates to be completed without any customer downtime.
Addressing the topic of supporting diverse workloads, Brown outlined the evolution of EC2 from a single instance type since its inception in 2006 to over 600 specialized instance series today. While this may seem overwhelming at first glance, each instance type has been optimized for different usage scenarios. For example, the x1e instance offers up to 24TB of RAM to handle memory-intensive tasks like those required by SAP HPC.
EC2 now supports four processor architectures: Intel, AMD, Amazon Web Services' Arm-based Graviton processors, and Apple silicon. Intel remains a key long-term partner, powering over 350 EC2 instances, including the fastest and most storage-optimized options. One inspiring use case comes from AI Scouts, who built a platform based on Intel Ice Lake processors and Habana machine learning accelerators to analyze video from mobile phones in order to discover overlooked talent among young football players.
在AMD领域,EC2已经迅速升级至最新的第三代EPYC米兰处理器。根据内部的基准测试结果,基于类似x86工作负载的AMD实例其成本大约降低了10%。通过将整个EC2上的工作量转移到AMD和Graviton实例上,客户Sprinklr成功地大幅降低了成本——在各种工作负载和服务上降低成本高达50%。
Graviton 2处理器在内部基准测试中相对于类似的x86芯片实现了40%更高的性价比。全面的支持使得大多数现有应用程序可以轻松地迁移到Graviton。客户DirecTV Stream在将关键工作负载转移到Graviton 2实例后,运营成本降低了25%。
下一代产品Graviton 3在内部基准测试中的性能提升了25%,它在单线程工作负载(如加密)方面表现出色,在这些情况下,相较于Graviton 2的性能提高了80%。Graviton 3还集成了先进的DDR5内存。F1赛事发现,Graviton 3在高级气动设计模拟上的运行速度提高了40%,这有助于提高赛车性能,同时比x86技术节省60%的能量。
在re:Invent上预览的、基于Intel Sapphire Rapids的r7iz实例是目前市场上首个具有3.9 GHz时钟速度的亚马逊云科技实例。它提供了比上一代亚马逊云科技英特尔基实例高15%的计算性能,根据内部基准测试。这使得它非常适合需要极高每核性能的EDA芯片设计工作负载。客户Marvel发现了亚马逊云科技的新r7iz等EDA服务大大加速了他们的高级芯片开发进程。
在高性能计算领域,基于AMD米兰的hpc6a实例以非常低的成本提供了100Gbps的EFA网络连接,吸引了众多传统的高性能计算工作负载。最新的基于Graviton 3的hpc7g实例在内部测试中,与hpc6a相比,向量处理性能提高了35%。这使得亚马逊云科技现在能够运行许多以前似乎在云中无法实现成本效益的苛刻的高性能计算应用。
机器学习领域的创新也在迅速发展。亚马逊云科技的Trainium实例在针对定义AI进步的常见模型(如BERT和ResNet)的内部基准测试中,相比于GPU基实例,训练成本降低了大约50%。新近宣布的Trainium 2性能足够强大,可以在单个实例上训练175亿参数模型!
在推理性能方面,使用了Habana Gaudi2加速器的Amazon Inf2实例相较于同类基于内部基准测试的GPU实例,每瓦性能提升了45%。客户Money Forward在部署其AI聊天机器人服务时采用了Inf1实例,这使得与GPU相比的推理延迟降低了97%,实现了实时交互。
总结工作负载方面,Brown强调了EC2 Mac实例如何使得开发者能够在整个Amazon云科技平台上为苹果平台构建和测试应用。最新的基于M1的Mac实例在内存基准测试中的性能相较之前的基于x86的Mac实例提升了4倍。这大幅缩短了构建时间,减少了错误,并提高了与苹果生态系统的集成度。
谈及成本优化,Brown建议通过使用不同类型的实例来匹配工作负载,同时利用节省计划和Spot Instances(现货实例)以实现稳定且灵活的工作负载。此外,通过使用如Compute Optimizer等工具,根据数据驱动的方式为客户提供超过1000亿个建议,以降低支出。亚马逊云科技还实行严格的价格控制,将节俭视为基本文化原则。
在基础设施方面,亚马逊云科技在全球范围内拓展计算能力,拥有30个区域和21个本地区域以确保单位数毫秒的延迟。纳斯达克提供了一个鼓舞人心的Outposts使用案例,计划从2023年开始将其期权市场系统迁移到亚马逊云科技的Outposts数据中心。初步测试结果显示,与纳斯达克自己的基础设施相比,亚马逊云科技Outposts的性能提高了大约10%。
总的来说,Brown回顾了EC2在性能、安全性、运营、功能和成本效率方面的持续创新。自2006年推出EC2以来,亚马逊云科技一直致力于客户需求,推动其在云计算领域的创新。未来的有趣机遇即将到来,这得益于团队的不断进步以及对客户需求的持续关注。Brown在计算部分的结束感谢了与会者的参与,并鼓励他们参观re:Invent的其他部分,以获取更多关于计算和云计算的见解。
下面是一些演讲现场的精彩瞬间:
亚马逊云科技的领导者向热情洋溢的re:Invent观众致以问候,并承诺将发布关于计算创新方面的令人振奋的公告。
作为全球领先的云计算服务提供商,亚马逊云科技始终挑战自我,严格限制员工直接接触客户数据或设备的权限。
为了进一步提高客户数据的隐私保护,The Trade Desk公司选择了亚马逊云科技的Nitro Enclaves技术来安全地处理敏感客户数据。
领导者们强调了亚马逊云科技多年前的创新之作——Graviton处理器,它已经在整个生态系统中产生了深远影响。
如今,迁移到Graviton变得更加简单易行,因为Graviton 3处理器相较于前一代产品,性能提升了25%,同时在加密等工作负载方面提高了80%。
此外,Graviton 3还是首个采用高性能DDR5内存的亚马逊云科技实例。
HPC6a实例采用了AMD Milan CPU和100Gb网络,这使得亚马逊云科技能够以低于内部选项的成本赢得高性能计算工作负载的竞争。
亚马逊云科技的EC2副总裁Dave Brown在2022年re:Invent上进行了一场关于云计算创新的专题演讲。他首先回顾了近些年EC2的发展历程,从2008年的14名团队成员和100万个实例,到如今每天启动超过1亿个实例,累计达到300亿个实例。EC2的使命始终是帮助客户在云端比在本地环境中更可靠地运行任何工作负载。
Brown在演讲中重点介绍了EC2在性能、成本优化和支持多样化工作负载方面的关注。他强调了Nitro作为一项关键创新和区别点,将网络和存储等功能外包出去,以便为客户释放CPU资源。此外,Nitro还提供了诸如启动验证和加密等安全增强功能。
演讲内容涵盖了针对网络、存储、HPC、机器学习和其他工作负载优化的新EC2实例。特别强调了Graviton处理器在性价比方面对x86处理器的改进。同时,也提到了运营卓越计划,如年度故障率降低了62%。
Brown还与纳斯达克的CTO共同探讨了他们迈向云端的历程。通过使用EC2 Outposts,纳斯达克已经开始将其市场系统迁移到亚马逊云科技上,同时在保持超低延迟的同时提高了性能。
最后,Brown重申了EC2对持续创新的承诺,尽管它已经取得了规模和成就。这场专题演讲展示了一幅EC2通过实现客户的多样化工作负载和应用场景,通过性能、成本效益和运营卓越来推动其发展的演变和未来路径。
https://blog.csdn.net/weixin_46812959/article/details/134652934
2023亚马逊云科技re:Invent全球大会 - 官方网站
点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!
点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!
【免费】亚马逊云科技“100 余种核心云服务产品免费试用”
【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。