关键字: [Amazon Web Services re:Invent 2023, Data Mesh, Data Mesh Architectures, Data Domains, Data Sharing, Data Governance, Data Discovery]
本文字数: 2800, 阅读完需: 14 分钟
数据优先的企业对数据网格体系结构越来越好奇。在本次分享中,学习如何在亚马逊云科技上设计、构建和操作数据网格体系结构,能够助您应对导航数据挑战,优化分析过程,并更快地提供业务洞察。聆听 GoDaddy 的首席数据官 Travis Muhlestein 讲解如何使用亚马逊云科技处理数据信息。
以下是小编为您整理的本次演讲的精华,共2500字,阅读时间大约是12分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。
本视频主要探讨了如何在亚马逊云科技上构建数据网格架构。亚马逊云科技分析团队总监Ian Myers首先阐述了现代数据策略的核心内容。他强调,数据策略需要涵盖各种数据源,包括运营数据(如遥测、cookie、服务器端数据等),并能够随着业务扩张而进行扩展。在数据纳入策略后,应采用强大的目录和管理模式以提高可发现和设定安全边界,从而确保在扩展过程中能够充满信心。接下来,可以将分析应用程序、机器学习模型、数据库和数据湖集成在一起以存储数据并解决问题。这些策略的成果将为最终用户、业务分析师、应用程序和依赖增强决策的设备提供支持。通过将这些决策支持见解反馈到数据源,可以提高客户体验,从而实现闭环。
在亚马逊云科技上构建这种现代数据策略时,S3提供了安全存储任何类型对象的基础,具有11个9的高持久性和可用性,允许数据安全地扩展。亚马逊云科技Glue目录存储数据的结构信息,支持各种文件格式,并将S3文件作为数据库中的表来增加更多的结构。Lake Formation使用基于标签的策略而非仅针对个人的数据库和表权限授予,以确保安全性与诸如数据是否包含PII、其成本中心和保护制度等因素保持一致。Athena实现了无服务器SQL和Spark处理,以快速处理数据。许多其他专门构建的服务围绕核心服务展开,如用于日志分析和发现的OpenSearch、用于关系数据的Aurora、用于可预测NoSQL延迟的DynamoDB、用于灵活数据处理的EMR、用于并行数据仓库的Redshift以及用于可扩展的ML模型构建、训练和管理的SageMaker。
艾恩强调了对Lake Formation、IAM、CloudTrail、Shield等服务的安全性这一关键原则,将其作为首要任务。S3的11个9的设计确保了数据的持久性和可用性。DataZone的统一目录和工作流程管理简化了操作。通过不懈优化,每年在服务如Redshift和EMR Spark等方面取得了性能价格优势。拥有50多个AppFlow连接器和超过120个Glue连接器以摄取数据。治理以Lake Formation权限为基础,并随着未来投资而增强。
接下来,他概述了扩展过程中所面临的挑战。例如,每年新增的数据源和新数据格式增加了复杂性。更多的业务部门有独特的要求——艾恩指出,一些客户甚至拥有数十个甚至数百个数据湖。这种增长需要更强大的治理,但集中的方法会增加摩擦,可能不适合所有人。即时的数据共享有风险导致安全漏洞。激励措施并不总是一致的——正如一位客户所说,“每个人都想成为消费者,没有人愿意成为生产者。”
因此,数据网格应运而生。它利用现有的平台而不是强制集中化。它找出如何使领域可以互操作,将治理下推到环境中。它提供数据发现,因为点对点共享使得找到数据变得困难。它允许有护栏的自服务共享,测量使用情况以指导热门数据集的投资。
接着,艾恩详细阐述了4个关键数据网格原则:
以领域为中心的、去中心化的数据所有权和架构。负责的数据所有者了解存储、治理和共享。创建与商业领域相匹配的边界。
将数据视为产品。数据工程师丰富数据以供业务使用。消除消费者的摩擦。提高价值。
自助服务数据基础设施。消费者可以轻松地在目录中找到并请求访问数据产品,抽象复杂度。
联邦计算治理。领域所有者管理数据,但中央治理执行安全和审计。
最后,Nva Shankar这位主要产品经理解释了在亚马逊云科技上如何实践这些原则。领域所有者创建与领域匹配的帐户和组织结构。他们存储和保护数据,保持质量。数据工程师准备数据产品供业务使用。消费者可以在目录中无缝地找到数据产品并请求访问。中央治理提供审计和权限自动化。
他描述了一种五柱参考架构:在领域中构建可扩展的数据湖和仓库;有目的地进行数据存储;实现生产者与消费者的数据共享;利用Lake Formation实现统一治理;以及具有可发现性的数据目录。示例展示了数据如何在其中央目录中进行注册、共享回域、使用Glue和EMR进行转换,并向消费者进行选择性展示。Lake Formation负责处理跨账户的治理。
GoDaddy的Travis Clabaugh随后从客户的角度进行了阐述。他解释了他们如何将数据迁移到亚马逊云科技以支持生产者和消费者。在业务部门中,他们拥有超过10个领域,每个领域都有独特数据和需求。数据管理员负责领域的治理,但由一个中心委员会负责制定标准。他们关注数据的入口、准备、治理执行以及业务洞察的分享。
Travis讲述了GoDaddy如何通过实验和机器学习驱动一种学习文化,从而产生数据。他们每年进行数十万次实验以了解客户需求,所产生的推断数据反馈到生产中——使团队从“想要成为消费者”转变为更兴奋地产生更多数据。他们提供自助服务的API和工具来供应数据系统,并使用SageMaker进行自动化。在治理方面,他们大量使用亚马逊云科技的目录、命名约定和Lake Formation。
在他们的“轮毂和辐条”模型中,有界上下文与业务领域相匹配。这不仅支持生产者和消费者,还使数据产品能够穿越领域以获取客户洞察。Travis表示,他们已经从这个数据网格中获得了巨大的商业收益,包括在完成2022年4月的300多个全球团队迁移后的数千万美元收入。
总之,亚马逊云科技上的数据网格通过领域实现了去中心化的数据所有权,将数据作为产品共享,提供自助服务数据访问,以及集中治理。这些原则和相关架构为实施提供了指导。GoDaddy的案例展示了这种方法在支持团队的同时保持了治理的力量,从而驱动商业价值。寻求扩大现代数据策略规模的公司可以利用亚马逊云科技的服务和数据网格架构来满足不断变化的需求。
下面是一些演讲现场的精彩瞬间:
演讲者详细阐述了亚马逊云科技的客户如何通过采用数据网格架构来满足现代数据策略的需求,从而在整个业务中实现规模化扩展。
为了在云中制定现代数据策略,组织内部的驱动力和数据共享至关重要。
领导者们描述了如何在集中管理的架构中跨账户共享数据湖和数据产品的方法。
他们还探讨了如何将不同系统的遥测数据进行统一的策略,以减少内部数据系统的负载并加速业务洞察的获取。
演讲者还讨论了如何建立一致的数据治理实践来衡量业务过程(如广告支出与每次获取成本的营销回报率)。
数据生产者希望通过不断的实验产生大量的推断数据,以便用于构建数据产品。
亚马逊云科技的迁移为客户节省了数百万资金,并加速了整个组织的研发进程。
数据网格的原则包括去中心化的数据域、拥有自主数据所有者的领域、以消费者需求为导向的数据产品、联邦治理和自助服务数据访问。这些原则有助于提高灵活性并保持良好的治理。
亚马逊云科技的数据网格参考架构包括特定的领域数据湖和仓库、通过Lake Formation实现的集中治理、统一数据目录以及从生产者到消费者的自助服务数据共享。
GoDaddy已在亚马逊云科技上实施了跨越10个业务领域的数据网格,实现了非中心化的数据所有权和共享。这大大提高了他们的分析能力。
总的来说,亚马逊云科技上的数据网格实现了业务领域内的非中心化数据所有权和治理,同时通过集中数据目录和治理促进了自助服务数据访问和共享。这使得在规模上实现了灵活性和治理之间的平衡。
2023亚马逊云科技re:Invent全球大会 - 官方网站
点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!
点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!
【免费】亚马逊云科技“100 余种核心云服务产品免费试用”
【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。