为分析和生成式 AI 构建端到端的数据策略

关键字: [Amazon Web Services re:Invent 2023, Amazon Redshift, Data Strategy, Data Integration, Data Governance, Data Mesh, Generative Ai]

本文字数: 1800, 阅读完需: 9 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1GG411q7H2

导读

端到端数据策略是分析和生成式 AI 应用程序的统一集成蓝图,用于管理、访问和分析所有数据。亚马逊云科技提供了一套全面的服务,存储、共享、查询和分析数据,以便通过高性能 SQL 和 Apache Spark 分析轻松集成跨数据湖和数据仓库的数据。亚马逊云科技为您提供了通过商业智能、机器学习和生成式 AI,编目和管理数据的工具。本论坛涵盖了统一和集成的数据战略如何帮助您应对数据挑战、优化分析和提供更快的见解。

演讲精华

以下是小编为您整理的本次演讲的精华,共1500字,阅读时间大约是8分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

陈达尔拉,作为亚马逊云科技分析部的首席产品经理,欢迎大家在她的re:Invent上参加关于构建端到端数据分析策略和生成性AI的讲座。她表示,尽管直接投资最新的创新技术,如生成性AI模型和有见地的仪表板非常有吸引力,但首先建立稳固的数据基础至关重要。这是目前所面临的一个复杂问题,涉及到打破数据、人员和业务之间的孤岛。

陈达尔拉进一步阐述了在2021年,房利美通过流动性向房地产市场注入了约1.4万亿美元,美国四分之一的抵押贷款由它们支持。这表明了它们所管理的大量数据,类似于许多大型企业。

陈达尔拉介绍了公司是如何实施去中心化的端到端数据策略的,数据生产者具有领域专业知识,构建并共享精选的数据产品。例如,房利美从单一的亚马逊云科技账户转向了多账户模型,以适应不同的领域和人物角色。这提供了去中心化的数据产品,同时保持了集中的管理。

数据消费者随后利用这些产品来推动业务成果。协调生产者和消费者之间的工作是数据基础团队的责任,该团队选择和部署工具以方便数据共享。为了实施这一策略,客户在亚马逊云科技上使用多账户架构。生产者拥有单独的账户,以隔离数据产品并控制成本。

通过数据目录等发现工具以及基础团队设定的治理要求,促进了数据的共享。例如,房利美有一个企业数据目录,以支持数据发现和建立数据产品的所有权,以确保问责制。

陈达尔拉详细解释了实施这种策略所面临的挑战。数据孤岛存在,信息分布在数据库、仓库、湖泊和第三方系统中。人员孤岛使得非技术用户难以轻松访问数据。与合规性和成本归属相关的业务障碍也限制了数据的共享。

端到端的方法打破了这些障碍,使消费者可以发现并订阅精选的数据资产。例如,在实施数据网格后,房利美现在在各个领域都有集成的数据产品,使其更具价值。

为了支持这种策略的制定,亚马逊云科技提供了一系列全面且专为成本和性能优化的定制服务。这些服务支持多种部署选项,以实现成本和性能之间的平衡——从无服务器到预配置实例。

尽管陈认为“一视同仁”的方法并非适用于所有场景,但随着需求的变动,客户通常会根据实际情况调整服务或架构。例如,从快速启动的关系数据库开始,然后根据使用情况更好地切换到非关系存储。此外,Fannie Mae还强调了独立于传输能力的重要性,以便采用新技术。

在数据库服务方面,陈强调了Aurora如何在以商业数据库成本十分之一的条件下提供卓越的性能和可用性。近期的一个创新是将MySQL复制到Amazon Redshift的技术,这可以在将数据复制到Amazon Redshift的时间上节省50%。

这使得Bolt能够在大规模数据上执行接近实时的分析,而无需任何ETL管道。其他重点介绍的数据库还包括用于处理键值工作负载的可扩展的Amazon DynamoDB,专为图形数据库设计的Amazon Neptune,以及针对时序数据(如DevOps监控事件)优化的Amazon Timestream。

在数据仓库方面,Amazon Redshift通过将仓库数据与数据湖数据相结合,实现了EB规模的查询。通过使用现货实例和预留实例,可以将成本降低到50-80%。

Amazon Redshift的创新包括自动完成和语法高亮功能,使得非技术用户也能轻松进行数据分析。Fannie Mae计划利用Amazon Redshift ML将计算带接近数据,避免不必要的数据移动。

在大数据处理方面,Amazon EMR提供了最新的开源框架,如Spark和Hive。它提供了最佳的性价比,例如Spark相比开源快了5倍。Amazon EMR还具有在EC2、EKS或预配置上的灵活部署选项。

最近强调的一个功能是使用Amazon Lake Formation权限为Spark工作负载提供细粒度的访问控制。这允许Fannie Mae基于精确的访问需求在表、列和行级别共享数据。

Amazon QuickSight通过自然语言搜索、交互式仪表板和嵌入式分析,为所有用户提供简单的商务智能。例如,Bolt内置了Amazon QuickSight仪表板来比较购物者类型。Amazon QuickSight还利用ML突出显示数据中的异常值。

OpenSearch服务在日志分析和实时应用监控方面表现出色,为扩展OpenSearch集群提供了便捷功能。随着日志数据的不断增长,成本也随之上升。为了解决这一问题,OpenSearch提供了存储层进行优化,最高可节省80%的成本。

一个最新的功能是使用嵌入式向量相似性搜索,以提高生成式AI应用的相关性和个性化。Fannie Mae计划将其应用于所有非结构化、半结构化和结构化数据的搜索。

SageMaker助力创建机器学习模型和AI应用,而Transcribe和Textract等服务则提供了预构建的ML功能。Transcribe支持语音转文本功能,而Textract能够从扫描的文档中提取文本、手写内容和数据。

Bedrock的使用使得基于基础模型(如Codex、LLaMA和Titan)构建和扩展生成式AI应用程序变得更加简单。Bedrock还包括使用私有数据对模型进行定制以及为业务任务创建智能助手的功能。

在数据集成方面,Chan解释道,数据分散在不同的系统中,需要进行集成以全面了解业务情况。这涉及到了数据的移动、转换和协调。

亚马逊云科技提供了针对集成使用场景的服务,如用于数据库迁移的DMS和超过3500个第三方数据集的市场Data Exchange。Fannie Mae便使用了Data Exchange来访问外部数据源。

Glue被视为具有无服务计算引擎的集成服务,可用于扩展工作负载。Glue为不同用户提供了笔记本、DataBrew和Glue Studio。笔记本面向更专业的用户,而DataBrew则为不太专业的用户提供了类似于Excel的界面。

提及的一个新的Glue功能是ETL编码助手,它能通过CodeWhisperer从自然语言注释中生成Spark代码。这简化了管道的开发过程。Fannie Mae计划将Glue纳入其数据集成架构中。

最后,Chan讨论了亚马逊云科技正在投资的一种名为“零ETL”的未来理念。其目标是通过扩大联邦查询、将计算移动到数据旁边以及在服务之间建立自动复制,来消除对自定义ETL管道的需求。

这样,开发者可以专注于业务逻辑,而不必处理冗余的工作。Fannie Mae已经采用了“将计算移动到数据旁边”的原则,以避免不必要的数据移动。

在数据治理领域,陈(Chan)强调了有效的治理在遵循法规规定的同时迅速处理数据的重要性。许多亚马逊云科技的服务都具备内置治理功能,例如 SageMaker 的模型管理和用于 S3 数据湖的 Lake Formation。

Lake Formation 提供了针对行、列和表的精细权限管理,使得范妮梅(Fannie Mae)能够精确地共享数据。

在端到端治理方面,DataZone 提供了诸如目录、权限和审计等关键功能。陈鼓励与会者了解更多关于 DataZone 的信息,将其称为端到端数据策略的“连接组织”。

随后,来自亚马逊云科技团队的拉姆(Ram)展示了许多讨论的概念。通过使用 DataZone,他可以吸收元数据并从 Redshift 发布数据产品。然后,他会切换到一个消费者账户,搜索目录,请求访问数据产品,并在 Amazon Redshift 中查询订阅的数据。

拉姆还演示了一个使用 Redshift 和 Bedrock 的个性化旅行聊天机器人。根据用户信息和从 Redshift 获取的行程详细信息,Bedrock 利用大型语言模型生成对话式回复。这个聊天机器人会根据用户的兴趣和即将前往曼彻斯特、布鲁塞尔和巴黎的旅行计划提供定制建议。

接下来,范妮梅的凯伦·拉米尼(Karen Ramini)介绍了他们在亚马逊云科技上从集成数据体验困境转向数据网格架构的过程。她解释了如何将数据视为业务能力的促进者,而不是资产。

范妮梅从单一亚马逊云科技帐户转向了多帐户模型,以调整域和人物角色。这为去中心化的数据产品提供了集中治理。

凯伦分享了将数据作为具有所有者责任的产品等建议。她强调了通过合同进行设计以及运输独立性,允许采用零 ETL 等新技术。

企业数据目录通过提供统一的元数据层来支持集成的见解。重点强调的好处包括敏捷性、可扩展性、更快地访问关键数据以及独立性。例如,范妮梅现在可以更快地采用 Redshift ML 和 SageMaker JumpStart 等创新,以缩短上市时间。

总的来说,亚马逊云科技的全系列产品组合旨在为客户提供专门设计用于存储和使用数据、跨孤岛集成数据以及管理访问的服务。通过采用集中式治理来协调分散的数据产品,可以消除障碍并建立一个稳定的数据基础。专家建议大力投资这种端到端的数据战略,以便充分发挥分析和生成性人工智能的潜力。亚马逊云科技为客户提供了实施这一战略所需的各种工具。

下面是一些演讲现场的精彩瞬间:

领导者强调了对端到端数据策略的重视,并阐述了亚马逊云科技在这一过程中的关键作用。

为分析和生成式 AI 构建端到端的数据策略_第1张图片

并非所有的数据库都适用于所有场景,随着客户对其工作负载有更深入的了解,他们通常会调整服务或架构。

为分析和生成式 AI 构建端到端的数据策略_第2张图片

例如,Aurora MySQL与Redshift之间的零ETL集成可以无缝复制Aurora中的数据到Redshift,实现近实时的PB级数据分析,无需任何额外设置。

为分析和生成式 AI 构建端到端的数据策略_第3张图片

亚马逊云科技提供了一系列分析服务,如高性能且成本可预测的Redshift。

为分析和生成式 AI 构建端到端的数据策略_第4张图片

此外,OpenSearch无服务器向量引擎能够加速对组织内部所有数据的搜索,内置嵌入式功能。

为分析和生成式 AI 构建端到端的数据策略_第5张图片

领导者展示了如何通过亚马逊云科技的数据区,只需点击几次即可轻松将数据发布到亚马逊云科技的数据目录。

为分析和生成式 AI 构建端到端的数据策略_第6张图片

在亚马逊云科技的re:Invent上,领导者通过扫描现场的二维码,鼓励观众参加数据分析讲座并获得积分。

为分析和生成式 AI 构建端到端的数据策略_第7张图片

总结

这段视频探讨了如何通过运用亚马逊云计算技术来构建端到端的数据策略,从而解决企业内部的数据孤岛问题。演讲者首先解释了一个端到端数据策略的重要性,因为企业的数据往往分散在多个数据库、仓库、数据湖和第三方系统之中。这种策略有助于整个企业在共享高质量数据产品的基础上实现数据共享。

亚马逊云计算技术提供了一系列全面且可定制的服务来实现这样的策略。在数据存储和利用方面,亚马逊云计算技术提供了针对各种应用场景的优化服务,例如Aurora、DynamoDB和Timestream等数据库。在数据分析方面,提供的服务包括Redshift、EMR、QuickSight和OpenSearch。SageMaker和Bedrock则支持机器学习及应用生成式人工智能。

在数据集成方面,Glue、Database Migration Service和Lake Formation有助于数据的准备、移动和管理。通过Data Catalog和DataZone,可以管理数据的权限和访问。

演示部分展示了一个简单的流程,即数据生产者发布数据集,而消费者则在DataZone中发现并订阅这些数据。订阅的数据随后可以从Redshift进行查询,并用于驱动基于Bedrock的个人旅行规划聊天机器人。

Fannie Mae的演讲者分享了他们如何采用数据网格架构,实现了去中心化的数据产品和自助服务访问。这有助于打破数据孤岛,实现集成的数据体验。

总的来说,亚马逊云计算技术提供一个全面的平台来实现端到端的数据策略,打破数据孤岛,使数据可用于分析和人工智能。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134785529

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

为分析和生成式 AI 构建端到端的数据策略_第8张图片

你可能感兴趣的:(aws,亚马逊云科技,科技,人工智能,re:Invent,2023,生成式AI,云服务)