关键字: [Amazon Web Services re:Invent 2023, Amazon Web Services Intent Driven Network, Network Infrastructure, Intent Driven, Routing Protocols, Automated Reasoning, Network Management]
本文字数: 1000, 阅读完需: 5 分钟
如视频不能正常播放,请前往bilibili观看本视频。>> re:Invent 2023 | 亚马逊云科技走向意图驱动的网络基础设施之旅 [重复]_哔哩哔哩_bilibili
参加本论坛,了解最新的亚马逊云科技网络创新,这些创新提高了亚马逊云科技基础架构的安全性、可靠性和性能。听取高级首席工程师的意见,了解新的意图驱动控制平面,以及它如何促进支持生成式 AI 繁荣的机器学习工作负载。本次深入讨论了控制平面和网络设计的动机、系统的特征和吸取的教训。从设计和构建定制硬件和软件到开发操作网络的弹性系统,了解确保亚马逊云科技网络为所有工作负载做好准备所需的工作。
以下是小编为您整理的本次演讲的精华,共700字,阅读时间大约是4分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。
史蒂芬·卡兰加恩,作为亚马逊云科技(Amazon Web Services)的高级首席工程师,在拉斯维加斯举行的re:Invent上发表了一场演讲,探讨了亚马逊云科技在构建一个意图驱动的网络基础设施过程中的经验。这个全球网络由分布在190个国家的数百个节点中的数百万台服务器组成,每天处理客户的万亿次请求。
这场演讲源于去年的一场展示后的客户反馈。当时,亚马逊云科技团队讨论了他们迄今为止在物理网络方面取得的成果以及他们的未来计划。客户迫切想了解关于亚马逊云科技当前网络基础设施举措和长期愿景的更多信息,因为这些基础设施是他们所依赖的基础,例如EC2、S3和Lambda等云服务。这个关键主干网的任何中断都可能导致“每分钟损失数百万美元”的损失,因此客户依赖于亚马逊云科技在其服务级别协议中承诺的99.999%的可用性。
史蒂芬通过将网络划分为设备、控制平面、管理平面和规划等多个领域来展开讨论。他强调,可靠性和高可用性是亚马逊云科技网络基础设施的固有特点,以确保其服务的在线。作为一名跨多个领域工作的技术专家,史蒂芬很荣幸能够向观众展示一个大多数re:Invent演讲都不会涉及的幕后视角——构成亚马逊云科技数据中心动力的背板的物理路由器、交换机和服务器。
他指出,尽管大多数客户认为亚马逊云科技主要是在云中运营,但他和他的团队一直致力于底层物理基础设施。了解这些机器内部的组件、运行在这些机器上的软件以及为了保持可靠性而设置的总体系统对他来说至关重要,因为“任何中断都会每分钟损失数百万美元”。他通过一些例子展示了亚马逊云科技定制的硬件,如可以将交换机光学设备的更新周期从132个缩短到1个的并行更新板。
在分析亚马逊云计算服务(Amazon Web Services)的基础设施扩展时,史蒂芬阐述了他们是如何根据区域数量、功能以及规模等因素来规划未来的增长的。他还讨论了诸如可用性分区隔离等技术承诺如何转化为实际网络需求的问题。亚马逊云计算服务已经将这些承诺直接纳入到他们的网络意向中,这是一种跨越设备、分区、地区和规划的预期行为宣言。这些意向提高了网络的一致性、可见性、操作和测试质量。
史蒂芬进一步深入探讨了亚马逊云计算服务所定义的意向类别,包括运营意向、路由意向、前缀意向和恢复目标意向。这些意向以标准化的形式使得行为能够在网络上得到传播。例如,一个意向可以强制同一可用分区内的两个EC2实例之间的通信仅限于该分区内,且“延迟小于2毫秒”。
随后,史蒂芬通过一个关于机器学习工作负载的客户案例,展示了亚马逊云计算服务如何利用意向来开发新型网络拓扑结构。当Ultra Cluster服务从“P4实例,带400Gbps带宽”升级到“P5实例,每个实例3.2Tbps”时,团队需要降低延迟和跳数以提高ML训练作业的性能。这使得他们不得不重新设想两层网络结构,并引入名为Cider的新型路由协议。
在总结部分,史蒂芬谈到了亚马逊云计算服务如何将形式化方法和自动化推理技巧应用于验证网络配置以防止故障。通过将测试尽可能提前并进行数学证明,亚马逊云计算服务能够在大规模问题上进行推理,从而构建更健壮的系统以支持其全球每天启动超过“100万个计算实例”的网络基础设施。
在整个演讲过程中,史蒂芬强调了亚马逊云计算服务如何利用意向提高网络的可用性和创新能力,同时降低复杂性。意向支持跨设备和系统的一致性、可见性和自动化推理,为运行全球各地“数百万客户在190个国家运行关键任务应用”的服务提供基础设施。通过详细说明他们朝着意向驱动网络模型的旅程,亚马逊云计算服务正在展示下一代基础设施如何满足在全球范围内运行尖端工作负载的客户需求。
下面是一些演讲现场的精彩瞬间:
本次演讲探讨了亚马逊云科技在物理网络方面的当前及未来进展,这些进展是基于客户反馈而进行的。
将意图作为网络变革的核心,这带来了实时的可视性,使得更早、更有效的测试成为可能。
领导层强调在重新投入使用网络元素之前,应充分对其进行测试,以防止误报。
领导者还强调了在网络变更过程中,不同组件如控制器、路由器、遥测系统和规划系统等之间协调的重要性。
亚马逊云科技的帮助系统利用带有账本的权威信息,通过适配器将意图关联传播到各个子系统。
领导者总结道,亚马逊云科技通过从客户需求出发,逆向推导以达到所需状态,并借助意图保持关注,以简化方式推动创新,从而改进了其网络基础设施。
亚马逊云科技还采用形式化方法,如自动化推理和可证明安全,以确保其产品和服务的安全性。
斯蒂芬·卡兰加的演讲深入探讨了亚马逊云科技在构建意图驱动网络基础设施方面的努力。他首先指出,意图以一种声明性的方式捕捉了网络的可预测行为。由于所有系统都引用相同的集中式意图,所以意图带来了一致性。接下来,卡兰加详细阐述了亚马逊云科技如何开发出Cider,这是一种专为满足超集群等机器学习工作负载需求定制的路由协议。Cider作为一个混合的集中式和分布式协议运行,旨在实现最佳的可视性、确定性和可扩展性。在Cider的基础上,亚马逊云科技推出了意图驱动网络(Aiden),这是一个将意图与网络实体关联起来的管理平面。Aiden通过集中式权威和适配器进行协调,将意图更改传播到各个系统。卡兰加最后讨论了如何通过形式化的自动化推理对配置进行详尽验证,以确保其符合意图规范。这使得网络变得更加健壮,同时将测试提前。亚马逊云科技正将其基础设施转变为基于意图驱动的系统,以提高可用性、可扩展性和简化程度。
AWS journey toward intent-driven network infrastructure-CSDN博客
2023亚马逊云科技re:Invent全球大会 - 官方网站
点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!
点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!
【免费】亚马逊云科技“100 余种核心云服务产品免费试用”
【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。