关键字: [Amazon Web Services re:Invent 2023, Amazon Trusted Advisor, Operational Efficiency, Resilience, Amazon Support, Trusted Advisor, Recommendations]
本文字数: 2100, 阅读完需: 10 分钟
如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV15N4y1e7kZ
在本论坛中,学习如何使用企业支持工具(例如 Amazon Trusted Advisor 、Amazon Incident Detection and Response、安全改进计划和成本优化研讨会),提高弹性、运营效率、成本优化和安全性。亲身体验大型制造公司如何使用 Trusted Advisor 等产品创建内部卓越运营团队,以主动优化其云部署,并使用 Incident Detection and Response 来监控事件并采取行动,以监控事件并采取行动。
以下是小编为您整理的本次演讲的精华,共1800字,阅读时间大约是9分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。
在2022年re:Invent上,一场名为“利用亚马逊云科技支持提高运营效率和弹性”的研讨会为企业如何优化其云计算操作提供了宝贵的见解。亚马逊云科技Trusteed Advisor的主要产品经理Shanan Kesha Raju欢迎了与会者并概述了演讲的议程。她表示,他们将探讨企业在运营效率和弹性方面面临的挑战,解释亚马逊云科技支持产品如何帮助企业克服这些障碍,并提供一些客户实际使用的案例。
Shanan首先提到,“一切都会随时崩溃”——这是亚马逊首席技术官Werner Vogels博士的一句著名格言。这句话强调了运营软件应用程序时问题的不可避免性,这些问题由各种因素引起,如代码更改中的手动错误、意外流量高峰、数据中心中的机架故障等硬件故障,甚至是可能导致整个地区中断的自然灾害。所有这些因素都可能以不同的方式影响业务运营的稳定性。因此,在设计应用程序时,开发者必须内置冗余和弹性,以便在发生故障时,系统能够在规定的恢复时间和恢复点目标内快速恢复。
Shanan接着讲述了组织内部不同团队如何应对这些挑战。例如,财务团队的目标是确保所有部门都能高效运行并在预算范围内运作。为了实现这一目标,他们需要了解跨部门的低效情况并能够跟踪解决问题的进展。安全团队关注的是各个团队如何遵循与安全密钥、加密和漏洞等方面相关的安全最佳实践。网站可靠性工程师致力于确保所有团队都实施了弹性架构。而DevOps团队则负责强制执行可观察性标准,以便能够快速发现和解决问题。
许多大型企业已表示,在分散的团队中实现亚马逊云科技的最佳实践一致性非常困难,特别是在一个集中式的云计算卓越中心试图监管云操作的情况下。由于缺乏可见性、优先推荐的工具以及用于识别低效工具的方式,次优架构得以部署。当故障发生时,可能产生巨大业务影响。
根据IDC白皮书的数据,莎娜指出,企业平均每年经历29次未计划的停机。解决这些问题大约需要4.4小时,每年使公司损失约1350万美元。这表明急需实施预防措施以避免这种情况发生。
因此,人们开始讨论亚马逊云科技的支持服务如何帮助企业保持领先地位。莎娜解释了亚马逊云科技的Trusteed Advisor(可信顾问)的作用。它是亚马逊云科技最佳实践的主阵地。可信顾问会对所有地区和账户进行全面的自动化检查,以确保符合最佳实践。它会标记出与这些最佳实践的偏差,以便客户采取行动。目前,有超过300项检查涵盖了45项服务,包括与安全Hub、Resilience Hub和Compute Optimizer等专业建议引擎的集成。
这些检查分为几个类别,如成本优化、安全、容错、性能和服务配额。每个检查的结果被分类为绿色(无需采取行动)、黄色(建议调查)或红色(建议采取行动)。客户可以通过控制台、API或EventBridge接收通知来消费这些建议。
莎娜还列举了一些与各个团队相关的可信顾问检查示例。例如,成本团队可以利用关于闲置资源或未充分利用的卷的检查来节省资金。安全团队可以监控暴露的访问密钥或公共EBS快照等检查。SRE可以跟踪没有多区域化的RDS实例以评估可用性风险。而DevOps团队可以获得关于未启用流量日志的网络审计资源的通知。这表明了可信顾问如何适应每个团队的责任。
尽管"可信顾问"服务面向所有亚马逊云科技的客户,但大型企业往往更需要符合其特定需求和企业团队知识的专业指导。因此,在2022年推出了"可信顾问优先"服务。这个服务汇集了企业内部各个方面的建议,并通过一个在客户的共享环境中训练的机器学习模型来传递这些建议——比如关键工作负载、关键应用程序、业务目标以及账户成本和使用数据等。
账户团队可以看到由机器学习排序出的最高10-20条建议。他们会运用自己的专业知识,选择最相关的建议并通过管理账户与客户分享。一个重要的功能是闭环跟踪——客户对这些建议的回应会被反馈到系统中以改进优先级。此外,提供一个全部行动的历史视图可以让集中式团队更好地追踪进度。优先级系统还允许账户团队输入与当前活动(如即将进行的大型活动)相关的手动建议。
Shanan深入研究了这个优先级系统的运作方式。建议既与集中式管理账户共享,也与拥有受影响资源的每个成员账户共享。管理账户可以对所有资源执行通用操作,例如确认或驳回建议。成员账户可以根据自己的建议采取行动。所有的动作都会被反映回去,以便在管理账户中提供整合的状态。这使得集中式团队能够确定在需要时介入的地方以加速补救。
Shanan在她的部分结束时宣布了一系列全面的"可信顾问"API的推出,包括优先级建议。她还提供了如何将内部工具集成为大规模使用建议以及使用推荐生命周期API反馈状态的示例。
尼尔·桑德尔,一位来自亚马逊云科技支持部的专业技术客户经理,接着上台讨论针对大型企业客户的专门账户团队项目。他专注于这些以人为本的措施如何帮助提高运营效率,超越"可信顾问"的自动化检查。
尼尔首先强调了对弹性云计算架构的需求,这些架构能够迅速从故障中恢复,以满足业务目标(如RTO和RPO)。虽然Trusted Advisor已经提供了一些弹性检查功能,但大型客户仍然希望获得针对其关键任务应用程序的深度定制指导。因此,诞生了Driving Resiliency Planning, Execution, and Testing (DR PET)服务模型。DR PET是一个为期3-4个月的项目,亚马逊云科技的专家将审查客户的环境,记录关键任务应用程序,识别风险,制定详细的运行手册并进行模拟测试以验证弹性能力。这种级别的审查仅适用于最重要的应用程序,并要求客户承诺参与研讨会和规划。
为了实现大规模自动化跨数百个应用程序的弹性测试,尼尔建议采用亚马逊云科技的Resilience Hub。Resilience Hub允许客户根据RTO/RPO目标定义策略并运行自动评估以识别风险。它还可以生成运行手册并与混沌测试工具集成。
尼尔在安全领域也提出了类似的需求——针对不同需求的几千个账户应用标准化的策略是无效的。客户需要根据其环境和成熟度水平定制的指导,以及帮助构建持续改进的过程。亚马逊云科技的Security Improvement Program通过对比250多项最佳实践提供安全分数、推荐意见以及与Trusted Advisor的跟踪集成来满足这些需求。该计划不仅适用于特定服务,还应用于基础设施、数据、身份、日志和安全事件响应等各个方面。亚马逊云科技Security Hub然后可以聚合并修复大规模的发现结果。
尼尔还强调了在监管行业快速响应和恢复的重要性,这些行业对RTO有严格的要求。新的Incident Detection and Response (IDR)服务提供全天候的环境监控,并在发生故障时将参与时间从15分钟缩短到5分钟。IDR与CloudWatch警报、安全工具和亚马逊云科技Health API集成,以便在出现问题时迅速涉及支持工程师、帐户团队和服务团队以减轻问题。客户已经看到了包括改善可观察性、更快解决速度和减少人工干预时间在内的好处。
最终,尼尔详细解释了账户团队如何进行成本优化研讨会,以分析成本和用量趋势,从而发现和计算、数据库、存储以及其他服务的节省机会。通过采用这些建议,客户通常在60到90天内就能看到云运营成本的15%的降低。
在最后一个部分,科氏工业公司的云平台经理卡拉·莫斯利从客户的角度分享了如何利用亚马逊云科技的支持功能。她概述了科氏公司从2016年开始的五年期间,从内部环境转型为将大部分工作负载迁移到亚马逊云科技的历程。尽管这带来了巨大的价值,但科氏公司也面临着不同业务之间云计算成熟度的不一致、责任方对效率机会缺乏可见性以及技术债务累积等挑战。
为了克服这些障碍,科氏公司专注于提高弹性、安全性、监控、治理和成本管理。他们与亚马逊云科技账户团队进行了广泛的合作,并利用了诸如Trusteed Advisor(可信顾问)、Security Improvement Program(安全改进计划)和Cost Optimization Workshops(成本优化研讨会)等服务。
在弹性方面,科氏公司对关键应用程序进行了Well-Architected审查,并跟踪了他们在修复超过330个可信顾问调查结果方面的进展。他们将部署模式调整为与主要和辅助基础设施的首选区域保持一致。科氏公司的Georgia Pacific业务部门参加了DR PET项目, 以定义RPOs/RTOs并改进恢复程序。他们还采用了基于这些政策的亚马逊云科技韧性中心进行自动化测试。
在安全方面,科氏公司的每个业务部门都通过了Security Improvement Program评估,以便根据他们的需求定制建议,同时推动全公司的改进措施,如强制使用CloudTrail/VPC Flow Logs和GuardDuty。这导致了一些配置更改,例如在最初从EBS卷移动时遗漏了对RDS快照的加密。
为了应对新兴问题,科氏公司构建了一个使用Amazon Health API和EventBridge的集成,以实时警报发送到他们的监控工具和票务系统。在成本优化方面,研讨会帮助科氏公司确定并实施了一项政策,自动删除一年以上不再需要的快照,从而节省了100万美元。按照业务线重新组织账户也使他们的账户团队能够更好地针对FinOps的建议进行定位。
总的来说,演讲者在本次会议上详细阐述了亚马逊云科技的支持服务如何帮助组织解决云端效率低下问题。这些服务包括主动提供建议、专业指导和高级工具。例如,科赫工业这样的成功案例展示了客户如何通过运用这些功能在实际中实现恢复力、安全性、事件响应和成本优化等方面的显著成果。在这次内容丰富的大会上所分享的见解使得与会者能够带回实用的方法,从而实现云端的卓越运营。
下面是一些演讲现场的精彩瞬间:
亚马逊云科技为其客户提供全方位支持服务,帮助他们应对运营效率和韧性方面的挑战。
领导者强调跨团队协作的重要性,以便在遇到问题时能迅速发现效率低下并采取措施。
在缺乏有效的可见性和追踪工具的情况下,在分散的团队中实施最佳实践将变得极为困难。
通过利用雅典娜S3查询、EventBridge与S3的集成以及Lambda监听器等技术,可以自动化内部流程如报告和事故管理等。
卡拉·莫斯利分享了她的经历,从一名会计师成长为领导科赫工业云计算平台团队的负责人,使得科赫公司能够充分利用亚马逊云科技的优势。
领导者强调迁移至亚马逊云科技的长期过程,克服了诸如延迟和技术债务等挑战,成功将大部分工作负载迁移到了云端。
领导者邀请与会者提供关于演讲的反馈,以便在未来的活动中做出改进。
演讲者探讨了亚马逊云科技(Amazon Web Services)提供的诸如可信赖顾问(Trusted Advisor)等服务以及人工指导的项目,如何助力企业应对运营效率低下的问题。作为一家领先的云计算公司,亚马逊云科技提供了一系列的服务来帮助客户实现业务目标。其中,可信赖顾问(Trusted Advisor)能够自动化检查和提供关于安全、成本优化、容错等方面的建议。此外,亚马逊云科技还提供了API和集成,以便更好地支持各种内部应用场景。同时,账户团队也会根据客户需求提供手动建议。
为了提高企业的弹性能力,亚马逊云科技还提供了灾难恢复准备情况评估(DR PET)服务,该服务会对环境进行审查,并提供提高准备能力的建议。此外,弹性中心(Resilience Hub)在规模上实现了最佳实践的自动化。在安全方面,亚马逊云科技的安全改进计划(Security Improvement Program)会根据250多个最佳实践来审查企业的成熟度,并给出相应的行动计划。通过与安全中心(Security Hub)等工具的集成,亚马逊云科技能够更有效地大规模管理安全问题。而事件检测和响应服务(Incident Detection and Response)则使得更快地支持参与和解决问题成为可能。此外,云优化研讨会(Cloud Optimization Workshop)还可以帮助企业审查环境并提供成本优化建议。
科氏工业(Koch Industries)就是亚马逊云科技的受益者之一。他们利用了可信赖顾问优先级(Trusted Advisor Priority)、安全改进计划(Security Improvement Program)和云优化研讨会(Cloud Optimization Workshop)等服务来解决他们在可见性、技术债务、弹性、安全、监控、治理和成本等方面所面临的挑战。未来,科氏工业计划通过事件检测和响应(Incident Detection and Response)等服务进一步提升其运营效率。
https://blog.csdn.net/just2gooo/article/details/134785594
2023亚马逊云科技re:Invent全球大会 - 官方网站
点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!
点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!
【免费】亚马逊云科技“100 余种核心云服务产品免费试用”
【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。