re:Invent 2023 | 弹性生命周期:基于亚马逊云科技的弹性模型

关键字: [Amazon Web Services re:Invent 2023, Amazon Web Services Resilience Life Cycle, Resilience Lifecycle, Recovery Time And Recovery Point Objectives, Chaos Engineering Tests, Observability Tools, Responding And Learning From Failures]

本文字数: 1700, 阅读完需: 8 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1Vj411L7V4

导读

在系统工程中,弹性是指系统在保持其基本功能和运行的同时,抵御干扰并从干扰中恢复的能力。要实现这一目标,组织需要采取整体方法,将弹性原则嵌入系统开发的每个阶段:设计、构建、部署、测试和运行。在本讲座中,您将了解亚马逊云科技弹性生命周期,并了解如何在您的组织中实施。聆听 Vanguard 集团弹性办公室的介绍,了解他们如何在生命周期中采用实践,在亚马逊云科技上构建弹性应用程序。

演讲精华

以下是小编为您整理的本次演讲的精华,共1400字,阅读时间大约是7分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

亚马逊云的克拉克·里奇(Clark Richey)在一场约200人的re:Invent上开始了演讲。作为一位拥有超过15年经验的专家,他询问了多少人是负责关键业务应用的人员,这些应用的停机时间将对其组织产生重大影响。在展示了大约150个举手的人之后,他又问有多少人觉得他们已经充分实施了必要的韧性措施。只有大约20人举手,这导致克拉克表示,对于大多数听众来说,这次演讲的目的是学习如何在亚马逊云上构建有韧性的应用程序。

克拉克介绍了他的合著者,来自Vanguard的科技韧性负责人Stacy Brown和韧性领导Yoni Singer,他们将会讨论如何利用亚马逊云的韧性生命周期来转变韧性。他强调,韧性等于收入,引用了行业研究公司Gartner的一句话:“韧性等于收入。”克拉克强调了停机的财务影响是惊人的,他引用IDC的数据估计,由于计划外停机和大故障,财富1000强企业每年损失15亿至25亿美元。除了直接的财务成本外,停机还对公司声誉、客户信任和员工生产力的无形损害造成了重大影响,这些影响可能在事故后持续很长时间。

转到亚马逊云的韧性共享责任模型时,克拉克解释说亚马逊云负责云计算基础设施和服务的基础设施韧性,而客户负责在他们的亚马逊云架构、应用程序和运营中建立全面的韧性。客户的主要责任包括在架构、网络、配额、代码部署、故障管理、数据备份等方面做出坚韧的技术选择。

克拉克承认,将应用程序迁移到云端有许多优势,如减轻基础设施管理的负担,提高业务的灵活性和创新速度,以及通过规模经济提高效率。然而,与单一的内部环境相比,分布式云系统也带来了固有的复杂性和可用性挑战。在如此庞大的规模上确保全面观察所有组件的状态变得非常困难。由于许多下游和上游服务的依赖关系,任何故障或损坏都可能导致连锁反应。这种复杂性使得预测和建模潜在故障模式变得更加困难,尤其是在与单体系统进行比较时。即使是一个简单的假设系统,一个客户端和一个服务器至少也有六个潜在的故障点,仅在这个微小的拓扑结构中。在现实世界中,生产系统有数千个组件和复杂的异步交互,因此更容易受到中断的影响。

克拉克强调,与其试图防止所有可能的故障形式,韧性在于确保系统能够预测、吸收、适应并迅速从中断中恢复。韧性需要快速检测事件和异常,了解根本原因,并在可能的情况下尽快恢复正常运行。他引用了亚马逊的一篇技术论文,其中详细介绍了分布式系统的固有复杂性和为什么全面的韧性功能对于业务关键型的云应用是必不可少的。

克拉克解释了亚马逊的韧性生命周期,这是一个经过验证的逐步改进的方法,以实现持续改进韧性能力的目标。它为结构化指导提供了结构化的指南,以便根据业务需求逐步提高韧性。克拉克强调了将韧性视为一个迭代过程而非单次项目或目的地的重要性。

韧性生命周期由两个相互关联的概念构成——基础韧性和持续韧性。基础韧性主要涉及经过验证的亚马逊云科技基础设施和服务,这些基础设施和服务专为提高韧性而设计,同时还包括诸如亚马逊云科技架构良好框架等设计原则和最佳实践。持续韧性则关注组织的流程、文化和系统,以便持续监控生产中断和事件并进行反思。"

"克拉克总结了亚马逊云科技韧性生命周期的五个阶段:

1)设定目标:明确量化的业务韧性需求和指标,如恢复时间目标(RTO)和恢复点目标(RPO)。

2)设计和实施:运用亚马逊云科技服务和最佳实践来构建满足韧性目标的架构。

3)评估和测试:在预生产环境中使用故障注入和混沌工程实验等技术来验证韧性能力。在实际部署后,通过持续监控和测试来核实。

4)运行:监测生产运行状况,对运营事件、性能下降和故障作出响应。

5)回应和学习:通过自动化修复问题,进行无责任的事后分析以寻找流程改进。"

"克拉克强调,从与业务需求一致的明确、定量RTO和RPO开始至关重要。对于拥有数百个应用程序的大型企业,他建议创建金/银/铜等不同级别的层级,并为每个级别制定标准化的目标。"

"他提到了如何利用亚马逊云科技服务与生命周期的每个阶段保持一致,例如用于验证的Resilience Hub和用于检查最佳实践的Trust Advisor。克拉克指出,确定目标需要根据内部业务需求进行分析,没有神奇的亚马逊云科技服务能够直接确定RTO和RPO要求。"

"克拉克随后介绍了Vanguard的Stacy Brown和Yoni Singer,分享了他们如何通过利用亚马逊云科技韧性生命周期来提升应用韧性的真实案例和用例。

Vanguard,一家全球投资管理巨头,掌管着超过7万亿美元的资产和超过5000万名投资者,在全球18个办事处的20,000名员工的支持下运作。由于其完全依赖于线上数字渠道的运营方式,Vanguard高度依赖一个高效且有弹性的系统来处理如此庞大的资产和客户群体。她强调,无论对于信任Vanguard管理其投资的客户,还是对于需要关注创新而非应对性灭火的工程师,任何停机时间都是不可接受的。

在2015年之前,尽管Vanguard已经致力于提高弹性,但工作主要在各团队和产品之间孤立地进行。为了实现更具战略性的转变,他们设立了一个横跨架构、工程、生产保障和IT运营的企业级韧性卓越中心。这个整合的团队在整个产品生命周期中建立了端到端的视角和反馈循环。他们与亚马逊云科技的一致性生命周期阶段相协调,规划他们的计划、文化和技术能力。

Yoni Singer强调了从反应性灭火转向前瞻性韧性实践所需的关键文化转变,并最终将韧性转化为整个组织的内在和根深蒂固的能力。这一转变需要对人事、流程及系统进行全面关注。Vanguard制定了新的量化韧性标准,并系统地评估了其体系结构的合规性。他们通过将韧性模型融入部署管道并向开发人员提供在编码期间进行韧性测试的工具,使得开发者可以自主运行相关测试。韧性卓越中心利用混沌工程等手段对生产操作进行广泛验证,确保IT系统如预期般运行。

为了评估在各种工作负载下的弹性能力,Vanguard公司采用了远超传统供应商工具范围的大型负载测试。他们自主研发了一个名为Performance Testing As A Service (PTAS)的基于Locust的内部分布式负载生成框架,用于扩展压力测试亚马逊云科技的极限。针对混沌工程,Vanguard还创建了一套专门适用于其特定环境的专用实验工具,并进行了超过20种灾难场景测试,如飓风、地震和海啸等。相较于传统的日志记录方法,亚马逊云科技X-Ray的分布式追踪技术将检测平均时间和修复平均时间减少了60%,因为它提供了跨多个微服务的详细交易可见性。一个名为Regula的策略引擎使用Open Policy Agent构建,以提供与弹性需求相一致的防护栏和自动策略一致性检查。一个实时显示关键业务流程和服务的状况的企业健康仪表板。

在文化方面,Vanguard将变更管理从手动清单驱动的发布闸门现代化为完全自动化的基于策略的部署管道,从而提高了部署频率。弹性测试结合了集成性能和混沌工程能力。一个Resiliency Champions社区在各个团队之间分享知识和最佳实践。高管培训构建了自上而下的理解和倡导。内部荣誉奖项表彰了提供卓越弹性的团队和个人。

可量化的成果包括部署频率提高5倍,重大事故减少30%,维修平均时间减少60%。客户对系统弹性的信心和工作满意度大幅提高。

展望未来,Vanguard将继续投资于更深入地灌输弹性,通过改进易用性、集成观测管道、增强策略自动化以及横跨整个客户旅程的端到端可视性。

总的来说,Clark强调了亚马逊云科技韧性生命周期如何为企业提供经过验证的逐步方法,以在整个云采用过程中建立世界一流的弹性能力。通过利用相关亚马逊云科技服务进行验证、测试、监控和自动化,像Vanguard这样的公司已经成功地将应用程序和基础设施的弹性在亚马逊云科技上转变。

下面是一些演讲现场的精彩瞬间:

在进行上线前,系统需要经过一系列的预部署测试,包括单元测试、集成测试、性能基准测试、负载测试、故障注入和混沌实验等,以确保其稳定性。

re:Invent 2023 | 弹性生命周期:基于亚马逊云科技的弹性模型_第1张图片

领导层强调了在每个阶段进行学习的重要性,并根据成功与失败的经验不断进行调整和改进。

re:Invent 2023 | 弹性生命周期:基于亚马逊云科技的弹性模型_第2张图片

在项目初期,就会实施关键功能(如追踪),以便日后能够充分利用。

re:Invent 2023 | 弹性生命周期:基于亚马逊云科技的弹性模型_第3张图片

此外,通过合成流量,公司可以模拟真实用户的行为,从而积极主动地发现生产系统中的问题。

re:Invent 2023 | 弹性生命周期:基于亚马逊云科技的弹性模型_第4张图片

自动化修复受损的步骤可以减少修复时间并降低人为错误的可能性。

re:Invent 2023 | 弹性生命周期:基于亚马逊云科技的弹性模型_第5张图片

总结

在亚马逊云科技举行的re:Invent上,本次演讲主要探讨了如何运用亚马逊云科技的弹性生命周期框架来构建具备弹性的应用程序。核心观点是弹性是一个持续不断的过程,而非一蹴而就的目标。

演讲者首先解释了为何弹性至关重要——业务中断可能导致数十亿美元的收益损失和声誉受损。接着,他概述了亚马逊云科技与客户之间的弹性共享责任模型,即亚马逊云科技负责确保云计算基础设施具备弹性,而客户则需要通过关键的架构和运营策略来实现弹性。

亚马逊云科技的弹性生命周期为一个指导这些策略的框架,共分为五个迭代阶段:设定目标、设计实施、响应与学习、评估与测试以及运行。需要注意的是,此框架与典型的软件开发生命周期相一致,便于轻松整合。此外,每个阶段的团队可能在需求驱动下处于不同的发展阶段。最后,根据分层的弹性目标,并非所有实践都适用于每一个应用程序。

Vanguard的演讲者进一步阐述了他们如何通过创建集中化的弹性组织并遵循亚马逊云科技的框架来实现弹性。他们通过广泛测试、监控、自动化和文化变革实现了关键成功,如将重大事故减少30%,并将平均故障解决时间缩短60%。然而,这一进程仍在继续,仍需加强易用性和可观察性方面的努力。

综上所述,这场富有启迪的演讲强调了解决弹性问题需要一个跨越人员、流程及系统的持续、迭代式方法。亚马逊云科技的弹性生命周期框架为此提供了理论基础,而诸如弹性中心和服务X-Ray等服务则为实施提供了支持。Vanguard的实践案例证明了该框架的有效性。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134836422

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

re:Invent 2023 | 弹性生命周期:基于亚马逊云科技的弹性模型_第6张图片

你可能感兴趣的:(aws,亚马逊云科技,科技,人工智能,re:Invent,2023,生成式AI,云服务)