为组织构建基于 zero-ETL 的分析架构

关键字: [Amazon Web Services re:Invent 2023, Amazon Redshift, Operational Analytics, Aurora Mysql, Redshift, Zero Etl Integration, Real Time Analytics]

本文字数: 1700, 阅读完需: 8 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1PQ4y1V7JR

导读

ETL 可能具有挑战性、耗时且成本高昂。亚马逊云科技正在构建一个 zero-ETL 的未来,它具有将接收流式传输到数据仓库、联合查询和连接器等功能,这些功能可以跨数据库、数据湖和第三方数据源就地访问数据,而无需移动数据。在本论坛中,了解零ETL投资(例如 Amazon Aurora zero-ETL 与 Amazon Redshift 的集成)如何推动亚马逊云科技数据服务之间的直接集成,以允许数据工程师专注于从数据中创造价值,而不是花费时间和资源构建管道。

演讲精华

以下是小编为您整理的本次演讲的精华,共1400字,阅读时间大约是7分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

午餐时段的主题是深入研究Aurora MySQL Zero ETL与Amazon Redshift的集成。目的是让与会者全面理解这一集成的运作方式及其如何助力简化对组织运营数据的分析。

来自Amazon Aurora团队的Adam Levine先生首先阐述了运营数据分析的重要性。他指出,如今数据已成为竞争优势的关键来源,可以从数据中提取见解和价值,具有广泛的横向和行业特定应用。关键在于能够实时访问和分析数据,以便根据数据变化快速形成见解并采取行动。

在调查中,大多数与会者表示他们需要分析运营数据库的数据来完成工作。然而,较少的人(仅有几双手举起)直接负责构建和维护复杂的数据集成管道以支持这种分析。更少的人(仅有两三双手)表示他们喜欢处理保持这些管道正常运行所涉及的复杂性。这突显了Zero ETL集成试图解决的关键问题。

正如Adam所解释的,维护可靠的数据管道需要投入大量时间、精力和技能。工程师必须应对一系列繁琐任务,如提取数据、编写脚本、配置API、验证完整性等。建立这些管道可能需花费几天、几周甚至几个月的时间,期间组织无法利用数据进行关键业务决策。

Zero ETL集成消除了这种无差别的工作负担,使工程师可以专注于从数据中获取价值而非仅仅传输数据。通过简单的基于IAM的访问策略、选择源数据库和目标仓库的能力,以及通过控制台、CLI或API进行配置,用户可以在仅几分钟内设置Zero ETL集成,而不是数月。

亚当详细阐述了亚马逊云科技的专用数据分析架构如何通过零ETL方法实现高效运作。在运营管理方面,Amazon Aurora提供了一个高性能、高可用性的MySQL兼容数据库,专门针对在线交易处理工作负载进行了优化。其独特的计算和存储分离设计实现了可扩展性、可用性和耐用性。作为亚马逊云科技历史上增长最快的服务,Aurora已被超过95%的顶级亚马逊云科技客户所采用,例如Expedia、三星和Capital One。

在分析领域,Amazon Redshift为一个处理复杂分析工作负载的PB级云数据仓库。它也采用了计算和存储的分离设计以提高性能。Redshift每天处理数兆字节的数据,为全球数千名客户提供支持,包括麦当劳、美国宇航局喷气推进实验室和FINRA。相较于竞争对手,Redshift在处理常见工作负载时的性能高出6倍,而对于短、并发查询(如BI仪表板中使用的查询),价格性能比高达7倍。通过零ETL,写入Aurora的数据可以在约15秒内进行查询。Redshift还与亚马逊云科技的其他数据服务深度集成,从而实现了跨组织共享数据和构建每日预测数亿次的机器学习模型等功能。

演讲者强调了近期的一些发展,如Aurora MySQL零ETL集成的正式推出,该集成经过了充分的预览期。持续的技术改进已经提高了性能,增加了支持的区域,支持API/CLI,并改进了入门体验。同时,监控和通知功能也得到了升级,使用户能够了解集成的活动和工作状态。

南非的Woolworths公司就是一个成功应用零ETL方法的典型案例。通过实施此集成,Woolworths能够在一天内实现之前需要两个月才能完成的可操作洞察。这展示了零ETL相较于管道管理在数据分析方面的巨大优势。

为了提供更深入的客户观点,邀请了Intuit的Smits Shaw分享他们如何使用Aurora MySQL零ETL集成。他表示,Intuit最近将数亿客户的迁移到了新的现代架构,在这个过程中,维持连续性和一致性至关重要。

直觉公司开发了一个强大的框架,用于高效地切割数据,同时确保没有停机时间或数据丢失。在转换过程中,他们采用适配器模式在新旧系统间调度流量。通过一个Spring Batch过程,数据从旧有数据库成功迁移至Aurora进行临时存储。据该公司负责人拉凯什·拉介绍,他们希望通过实施零ETL集成来简化过程,从而避免构建复杂的亚马逊云科技Glue管道。

斯密茨强调了直觉公司对实时数据迁移和状态可视化的需求。这使得他们可以向利益相关者展示迁移进展顺利,同时也让工程师能发现潜在问题并优化流程。过去,实时分析需要4到5个小时才能完成。然而,通过零ETL集成,运营数据可以在Redshift中立即进行分析。

拉凯什展示了一个实时迁移仪表盘的演示,该仪表盘在Redshift上运行。他通过在Aurora中迁移10条记录进行了演示,并向观众展示了如何实时更新Redshift仪表板中的计数。这种自助服务模式使得商业用户可以随时验证迁移状态,而不需要频繁地寻求工程师的帮助。工程师也能更快速地诊断错误。

拉凯什指出,无服务器架构成功地平衡了源Aurora和目标Redshift两端的负担。对直觉公司而言,零ETL集成将构建运营分析的时间从几个月缩短至仅几天。相较于维护管道本身,这大大节省了工程时间和成本。实时数据访问使得迁移过程更加迅速,并为决策者提供更多的洞察力。通过自助服务迁移状态分析,利益相关者获得了他们所需的信任。

在直觉公司的客户视角分享后,Redshift团队的代表乔伊·杰尔瓦尔上台进一步解释了零ETL集成与传统ETL解决方案之间的差异。她强调,核心目标是将数据引入Redshift以便更容易地进行分析,而不仅仅是传输数据。

零ETL集成旨在尽可能地简化设置和管理。该系统负责处理大部分与数据定义语言(DDL)、数据操作语言(DML)和监控等相关的工作,从而使工程师能够专注于其他更重要的任务,而非繁琐的数据管道任务。乔伊强调,这使数据一旦进入Redshift就能立即获得强大的分析功能。

她在性能优化方面进行了更深入的研究,例如运用Aurora MySQL的增强型日志技术。这种方案将复制工作交由存储层处理,而非采用传统的源计算方法。相较于标准日志的50%开销,增强型日志将复制性能影响降至仅5-15%的水平。

Joy展示了一系列示例,强调在Aurora中添加表格会实时反映在Redshift的DDL变更上。同样地,在Aurora中插入11行并更新1行后,在Redshift中查询这些表格时会观察到快速的变动。她还展示了如何使用Redshift控制台查看集成状态、延迟、错误等信息。

最后,Joy展示了如何在Zero ETL数据可用后充分利用Redshift的所有功能。这包括执行复杂的SQL查询、构建物化视图,甚至使用Redshift ML创建机器学习模型以进行预测性分析。一个销售预测查询使用了Zero ETL的运营数据,借助Redshift ML的时间序列功能来预测未来的销售额。

总的来说,Joy表示,Zero ETL旨在消除繁琐且手动的数据集成过程。其核心理念是减少工程师处理管道问题的耗时,从而让他们有更多时间创造实际价值。通过对近实时数据的简化访问,Zero ETL有望推动实时运营分析的应用范围。

这次会议使与会者深入了解了Aurora MySQL Zero ETL集成的运作原理。从Intuit客户的角度出发,提供了关于与传统管道相比,Zero ETL如何加速数据分析和简化数据访问的实际案例。与会者现在更能评估如何利用这些功能简化他们自身组织内的运营分析。

下面是一些演讲现场的精彩瞬间:

本次演讲将重点探讨运营分析、零ETL集成以及在亚马逊云科技中的应用,通过近期发布的来自Intuit的客户案例为例,展示如何在Redshift中进行数据操作。

为组织构建基于 zero-ETL 的分析架构_第1张图片

数据已成为企业竞争的关键优势来源,能够帮助企业洞悉市场并取得成功。

为组织构建基于 zero-ETL 的分析架构_第2张图片

亚马逊Aurora的核心创新在于将计算和存储层分离,从而实现了自动备份、快速克隆、无服务器功能以及高可用性的跨区域复制等功能。

为组织构建基于 zero-ETL 的分析架构_第3张图片

相较于竞争对手,Redshift在BI仪表板中常见的短、并发查询方面提供了高达7倍的价格性能优势,从而帮助客户大幅降低运营成本。

为组织构建基于 zero-ETL 的分析架构_第4张图片

亚马逊云科技提供的迁移框架允许在不中断或导致数据不一致的情况下,在不同技术栈之间实现无缝转换。

为组织构建基于 zero-ETL 的分析架构_第5张图片

与会者只需扫描二维码,便可了解更多关于亚马逊云科技分析师超级英雄的详细信息。

为组织构建基于 zero-ETL 的分析架构_第6张图片

总结

视频探讨了亚马逊云计算技术如何借助Amazon Aurora与Amazon Redshift之间的零ETL集成来实现运营分析。作为高性能交易数据库的Aurora与百亿级数据仓库Redshift相结合。传统上,构建从Aurora到Redshift移动数据的管道是相当复杂的。通过将数据更改从Aurora流式传输到Redshift,零ETL集成有效消除了这种复杂性,实现了近乎实时的数据传输。这使得企业无需依赖额外的工程投入即可在操作数据中运用Redshift的分析功能。

Intuit分享了他们在实施这一集成过程中的经验。他们能够在短短几秒钟内而非数小时内将数据从Aurora复制到Redshift。这使得他们可以实时进行数据分析并创建仪表板来监控迁移进度,发现故障模式并推动优化。总之,Zero ETL将他们的项目周期从数月缩短至仅数天。该集成能够自动处理DDL/DML,提供关于数据延迟和错误的可见性,并在诸如SQL、Spark、ML和BI应用程序等各种分析应用场景下支持数据复制。通过简化数据集成过程,Zero ETL有助于组织更专注于从数据中提取价值。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134832489

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

为组织构建基于 zero-ETL 的分析架构_第7张图片

你可能感兴趣的:(aws,亚马逊云科技,科技,人工智能,re:Invent,2023,生成式AI,云服务)