关键字: [Amazon Web Services re:Invent 2023, Amazon S3, Data Lakes, Machine Learning, Storage Services, S3, Migrations]
本文字数: 1400, 阅读完需: 7 分钟
如视频不能正常播放,请前往bilibili观看本视频。>> 亚马逊云科技存储服务:数据驱动型业务的支柱_哔哩哔哩_bilibili
亚马逊云科技提供可靠、可扩展和安全的存储服务,为您的应用、分析和人工智能/机器学习工作负载提供动力。在本创新讲座中,亚马逊云科技杰出工程师 Andy Warfield 将分享亚马逊云科技最新的存储创新技术,以及如何构建一个弹性、敏捷的数据基础加速洞察力和创新的内部观点。了解企业如何通过使用亚马逊云科技的高性能存储来实现更快的数据访问、简化数据湖和增强人工智能/机器学习计划,从而推动竞争优势。Andy 介绍了亚马逊云科技存储如何作为数据驱动型业务的支柱,支持安全、治理、分析和应用开发。
以下是小编为您整理的本次演讲的精华,共1100字,阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。
安迪·沃菲尔德,担任亚马逊云科技副总裁和资深工程师,在2023年re:Invent上发表了一场关于存储创新的演讲。他强调,尽管亚马逊云科技的服务中其他领域常常推出令人兴奋的新功能,但存储服务更注重持久性、安全性、可用性和性能等基本要素的持续、渐进式的改进。亚马逊云科技的存储团队对这些可能不会成为头条新闻,但逐年稳步改进的基本创新感到谦虚的自豪。沃菲尔德以弹性块存储(EBS)为例,这项服务已经走过了15年的历程,自推出后的第二天创建的一些卷至今仍在活跃使用中,经过十五年不间断的运行后,它们仍在为工作负载提供服务并处理I/O。
沃菲尔德带领我们回顾了EBS在这期间内的创新历史。早期,所有EBS卷都在硬盘驱动器上运行。这种机械介质对于线性读写表现良好,但当引入随机I/O时,性能受到极大的影响,因为物理支架必须来回移动。大约在2012年,EBS团队决定通过添加一个闪存层来重塑该服务。他们策略性地将SSD放置在服务器中,并将最近的写入操作路由到它们,同时异步地将较旧的数据降级到HDD层。这种优化使他们能够从较小的SSD空间中获得巨大的好处,因为数据局部性确保最快的存储被最常访问。然而,软件更改只是第一步——需要进行大量的准备工作,以便在不中断运行的客户实例的情况下添加驱动器并更换服务器。
沃菲尔德揭示了原始SSD部署背后的巧妙“胶带”工程——使用Velcro将驱动器安装在原本未设计用于它们的服务器内部!这个轶事说明了在亚马逊云科技的规模和可用性范围内演变服务的巨大复杂性。EBS机队现在已经超过了那些早期的SSD服务器的几代,但15年前的卷仍在不间断地继续其服务。
亚马逊云科技在各个层面的创新持续不断,从底层的Nitro系统(在不占用客户CPU周期的情况下实现加密)到加速网络传输的RDMA协议,再到去年推出的超高性能io2 Block Express卷。最初的100 IOPS现已扩展至最快实例类型的400,000 IOPS以上,增长了4000倍!
沃菲尔德注意到,这种持续、无缝的改进不仅仅局限于EBS,还贯穿于亚马逊云科技的所有存储服务中。他转向了S3的话题,S3已经成为客户数据湖和应用的基础已有17年。在此期间,随着使用模式的变化,对S3的性能要求也在不断演变。
起初只是一个归档存储,S3已经经历了从专注于并行分析的大吞吐量到满足客户将其作为应用程序主要数据存储需求的低延迟互动的阶段。沃菲尔德和他的同事们尝试了优化S3以满足这个新兴需求的方法,并在这个过程中学到了关于其内部架构的教训。
这些努力最终导致了S3 Express的推出,它为点读提供单位数毫秒延迟并提供每分钟数百万次请求。它作为高性能媒体上的单一区域存储层提供。早期的客户,如Pinterest,已经看到推荐引擎等工作负载的速度提高了数量级。
沃菲尔德随后谈论了客户如何使用亚马逊云科技的存储服务,如EBS和S3,进行企业迁移和数据湖等重大举措。他指出,推动迁移的动力越来越不仅仅是成本节约,还包括通过将长期持有的数据带到云端来运行新的创新工作负载的潜力。
亚马逊云科技提供了诸如FSx之类的强大的托管存储服务来应对这些迁移情况。今天宣布的ONTAP NAS集群在FSx上可以扩展到1.2百万IOPS和36GB/s带宽的能力将进一步推动这一趋势。医疗保健提供商eHealth NSW通过将数PB的医疗图像迁移到用于ONTAP的FSx,能够将图像获取时间削减10倍,并将COVID测试结果的响应时间从10天缩短到1小时。
在数据湖领域,根据Warfield的说法,企业客户的数据量在过去5年里以10倍的速度增长。为了满足新的数据源、类型和分析工具的需求,灵活的存储变得至关重要,例如亚马逊云科技提供的S3对象存储。如今,亚马逊云科技在S3上托管了超过70万个数据湖,其简单的可扩展性和成本模型可以充分利用大规模并行分析工作负载。
为了在基本对象存储之上添加表抽象和事务功能,Iceberg、Hudi和Delta Lake等开放表格格式已经出现。本周宣布的Iceberg表的新功能Glue自动压缩将小文件合并以加快查询速度。此外,今天推出的S3访问授权集成外部身份以实现细粒度的访问控制。
Warfield指出,S3上的数据湖支持的组织灵活性甚至超过了技术架构。共享存储允许团队使用最适合其使用情况的工具来访问数据——传统的SQL引擎、Spark或自定义应用程序。例如,像宝马这样的公司已经在S3上建立了从数百万车辆收集遥测数据的数据湖,以支持新服务。
数据湖为客户利用AI/ML和生成式AI提供了一个自然的平台。Warfield概述了数据规模、云计算和算法进步如何推动模型大小和复杂性的巨大增长。亚马逊云科技提供了适合此工作负载的存储选项——面向高性能计算用户的Lustre文件系统和面向数据湖建设者的S3简单可扩展性。
新的S3功能,如挂载点、PyTorch连接器、内部缓存和CRT优化,旨在为ML训练管道提供最大性能。亚马逊云科技提供的开源和许可数据集可以帮助客户补充自己的数据。尽管技术正在迅速发展,但对大多数人来说,数据准备工作意味着他们已经领先。
Warfield最后强调不断创新的重要性,以S3 CRT库为例,它可以透明地将SDK和连接器性能提升5倍。他总结说,亚马逊云科技存储团队通过重大发布(如S3 Express)和服务增强,致力于倾听客户和改进基础架构。对建设者来说,这意味着他们可以确信基础架构将继续扩展以满足他们未来数十年的需求。
下面是一些演讲现场的精彩瞬间:
安德鲁·沃菲尔德,担任亚马逊云科技副总裁和杰出工程师,在re:Invent上发表了一场关于存储创新的演讲。
他讲述了如何与团队合作,通过转向单区域产品来降低S3的延迟。
嘉宾分享了考克斯汽车的转型历程,从一个以产品为中心的企业转变为帮助客户在快速变化的市场中实现繁荣的企业组织。
借助亚马逊云科技,客户可以建立中央数据湖,实施治理措施,并快速构建新的应用程序以获取商业洞察。
为了支持大规模AI训练,亚马逊云科技正致力于投资高性能存储解决方案,如Lustre和S3。
亚马逊云科技团队始终致力于不断改进存储服务,倾听并采纳客户反馈。
安德鲁·沃菲尔德的演讲主要集中在亚马逊云科技在EBS和S3存储服务的持续创新上。他详细阐述了EBS如何从15年前的基于硬盘的存储发展到现在的高端固态硬盘(SSD)技术。同样,S3也从归档服务转变为包括新S3 Express在内的针对低延迟工作负载的高性能产品。
沃菲尔德接着探讨了客户在使用存储时所关注的三个关键领域:企业迁移、数据湖和人工智能/机器学习。如今,许多企业正将数据迁移到云端,以便利用云计算和分析的优势。基于S3的数据湖使得各类组织能够整合数据并运行各种工作负载。而机器学习的成功很大程度上取决于存储性能——例如来自Lustre文件系统的高速传输量或者来自S3的低延迟。
总之,沃菲尔德强调了存储团队在满足客户需求方面如何致力于提高持久性、安全性、可用性和性能。通过倾听和预测工作负载,亚马逊云科技实现了"为每个工作负载提供性能"的目标,并在服务中持续进行着不易察觉的创新,即便已经过去了15年。
AWS storage: The backbone for your data-driven business-CSDN博客
2023亚马逊云科技re:Invent全球大会 - 官方网站
点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!
点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!
【免费】亚马逊云科技“100 余种核心云服务产品免费试用”
【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。