一文了解 Amazon DataZone 使用指南

一文了解 Amazon DataZone 使用指南_第1张图片

Amazon DataZone 现已正式发布。作为一项新的数据管理服务,它能够在组织中对数据生产者和消费者之间产生的数据进行编目、发现、分析、共享管理

通过 Amazon DataZone,数据生产者可使用 Amazon Glue 数据目录和 Amazon Redshift 表格中的结构化数据资产,填充业务数据目录。数据消费者可以在数据目录中搜索并订阅数据资产,并与其他业务用例合作者共享。消费者可以使用 Amazon Redshift 或 Amazon Athena 等查询编辑器等工具分析其订阅的数据资产,这些工具可以从 Amazon DataZone 门户网站直接下载。集成的发布及订阅工作流程可以提供跨项目访问审核功能。

Amazon DataZone 简介

Amazon DataZone 域代表了在组织内部,能够管理自己数据(包括自己的数据资产和数据定义、业务术语)的业务线(LOB)或业务领域清晰的边界,并且可能拥有自己的管理标准。该域包括所有核心组件,例如数据门户、业务数据目录、项目和环境以及内置工作流程。

一文了解 Amazon DataZone 使用指南_第2张图片

1. 数据门户(在亚马逊云科技管理控制台之外)

它是一个网络应用程序,不同的用户可以自选服务,对数据进行编目、发现、管理、共享和分析。数据门户使用 Amazon Identity and Access Manager (IAM) 凭证或通过您的身份提供商 Amazon IAM Identity Center 提供现有凭证对用户进行身份验证。

2. 业务数据目录

在目录中,您可以定义分类法或业务术语表。您可以使用此组件根据业务上下文对整个组织的数据进行编目,从而使组织中的每个人都能快速查找和理解数据。

3. 数据项目和环境

您可以创建基于业务用例的人员分组、数据资产分组和分析工具分组,以简化对亚马逊云科技分析的访问。Amazon DataZone 将为项目成员提供一个可以进行协作、交换数据和共享数据资产的空间。在项目中,您可以创建一个环境,为项目成员提供必要的基础架构,如分析工具和存储,以便项目成员可以轻松地生成新数据或使用他们有权访问的数据。

4. 治理和访问控制

您可以使用内置的工作流程来管理数据订阅请求,它允许整个组织的用户请求访问目录中的数据,并允许数据所有者审查和批准这些请求。在订阅请求获准后,Amazon DataZone 便可通过管理等基础数据存储(例如 Amazon Lake Formation 和 Amazon Redshift)的权限,自动授予访问权限。

扫描下方二维码,获取更多 Amazon DataZone 相关信息。

一文了解 Amazon DataZone 使用指南_第3张图片

开始使用 Amazon DataZone

首先,我们可以设定这样一个需求场景:产品市场团队希望开展活动来推动营销,因此他们需要分析销售团队所拥有的产品销售数据。

在该场景中,销售团队作为数据生产者,在 Amazon DataZone 中发布销售数据;市场团队作为数据消费者,订阅销售数据并对其进行分析以制定营销策略。

1.创建域

在您首次使用 DataZone 时,首先要创建域,确保数据门户中的所有核心组成部分(如业务数据目录、项目和环境)都存在于该域中。转到 Amazon DataZone 控制台,选择“创建域”。

一文了解 Amazon DataZone 使用指南_第4张图片

输入“域名”和描述,所有其他值保留默认值。

一文了解 Amazon DataZone 使用指南_第5张图片

例如,在服务访问部分,如果您在默认情况下选择创建并使用新角色,Amazon DataZone 将自动创建一个具有必要权限的新角色,授权 DataZone 代表域内的用户进行 API 调用。选择快速设置选项,DataZone 可以处理所有设置步骤。

一文了解 Amazon DataZone 使用指南_第6张图片

最后,选择“创建域”。Amazon DataZone 将创建必要的 IAM 角色,并使该域能够使用您帐户中的资源,如 Amazon Glue Data Catalog、Amazon Redshift 和 Amazon Athena。创建域可能需要花费几分钟。等待域的状态变为可用

2.在数据门户中创建项目和环境

成功创建域后选择它,然后在域的摘要页面上记下根域的数据门户 URL。您可以使用此 URL 访问您的 Amazon DataZone 数据门户。选择“打开数据门户”

一文了解 Amazon DataZone 使用指南_第7张图片

如需创建一个新的数据项目作为销售团队发布销售数据,请选择“创建项目”

一文了解 Amazon DataZone 使用指南_第8张图片

在对话框中,输入“销售生产者项目”作为名称,然后输入项目说明并选择“创建”

一文了解 Amazon DataZone 使用指南_第9张图片

在此项目创建成功后,您就需要在这个项目中创建一个使用数据和分析工具的环境,例如 Amazon Athena 或 Amazon Redshift。在概览页面中或在单击“环境”选项卡后,选择“创建环境”

一文了解 Amazon DataZone 使用指南_第10张图片

输入“公共环境”作为名称,然后输入此环境的描述,选择“环境配置文件”。环境配置文件是一个预定义的模板,其中包含创建环境所需的技术详细信息,例如亚马逊云科技帐户、区域、VPC 的详细信息以及向项目中添加的资源和工具。

您可以选择几个默认的环境配置文件。选择“DataLakeProfile”,以便从基于 Amazon S3 和 Amazon Glue 的数据湖中发布数据。它还简化了您使用 Amazon Athena 访问的 Amazon Glue 表查询的流程。

一文了解 Amazon DataZone 使用指南_第11张图片

接下来,忽略所有可选参数,并选择“创建环境”。在您的亚马逊云科技帐户中创建某些资源环境大约需要一分钟的时间,例如 IAM 角色、Amazon S3 后缀、Amazon Glue 数据库和 Athena 工作组,确保项目成员更容易在数据湖中生成和使用数据。

一文了解 Amazon DataZone 使用指南_第12张图片

3.在数据门户中发布数据

您已经拥有了在 Amazon Glue 表中发布数据的环境。要在 Amazon Athena 中创建此表,请选择“环境”页面右侧的 Athena 链接“查询数据”

一文了解 Amazon DataZone 使用指南_第13张图片

您将在一个新选项卡中打开 Athena 查询编辑器。从数据库下拉列表中选择 publishenvironment_pub_db ,然后将以下查询粘贴到查询编辑器中。您将在环境下的 Amazon Glue 数据库中创建一个名为 catalog_sales 的表格。

CREATE TABLE catalog_sales AS
SELECT 146776932 AS order_number, 23 AS quantity, 23.4 AS wholesale_cost, 45.0 as list_price, 43.0 as sales_price, 2.0 as discount, 12 as ship_mode_sk,13 as warehouse_sk, 23 as item_sk, 34 as catalog_page_sk, 232 as ship_customer_sk, 4556 as bill_customer_sk
UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551
UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565
UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563
UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562
UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555
UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556
UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 455
UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563
UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557
UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561

左滑查看更多

您可以在下拉菜单中看到这两个数据库。 Publishenvironment_pub_db 数据库将为您提供生成新数据的空间,并选择将其发布到 DataZone 目录中。另一个, publishenvironment_sub_db 数据库用于项目成员订阅或访问该项目目录中的数据。

一文了解 Amazon DataZone 使用指南_第14张图片

确保已成功创建 catalog_sales 表。现在您拥有了一个可以发布到 Amazon DataZone 目录中的数据资产。

作为数据生产者,您现在可以返回到数据门户并将此表格发布到 DataZone 目录中。选择顶部菜单中的数据选项卡和左侧导航窗格中的数据源

一文了解 Amazon DataZone 使用指南_第15张图片

您可以看到在您的环境中自动创建的默认数据源。当您打开此数据源时,您将看到您的环境发布的数据库,和我们刚刚在该数据库中创建的 catalog_sales 表。

一文了解 Amazon DataZone 使用指南_第16张图片

此数据源将把它在发布数据库中能够找到的所有表格导入 DataZone。默认情况下,自动元数据生成的启用,意味着数据源带入 DataZone 的任何资产都将自动生成该资产的表格和业务名称栏目。在此数据源中选择“运行”

数据源运行完成后,您可以在数据源运行中找到 catalog sales 表。

一文了解 Amazon DataZone 使用指南_第17张图片

您可以打开此资产,看到发布作业可以自动提取技术元数据,包括表格的模式和一些其他的技术细节,如亚马逊云科技帐户、区域和数据的物理位置。

一文了解 Amazon DataZone 使用指南_第18张图片

如果它们看起来都正确,您可以轻松接受这些建议,方法是点击每个推荐项目中的大脑图标,或者点击“全部接受”按钮接受所有推荐项目。准备好发布后,选择“发布资源”,并在对话框中再次确认。

一文了解 Amazon DataZone 使用指南_第19张图片

4.以数据消费者身份订阅数据

现在,我们将角色切换到市场团队,看看如何订阅或请求访问此列表。重复上述步骤,创建一个名为“市场消费者项目”的新项目,并且重复相同步骤创建一个名为“订阅者环境”的新消费者数据环境。

在新创建的项目中,当您在搜索栏中输入“目录销售”时,您可以在搜索结果中看到已发布的表格。选择“目录销售数据”

一文了解 Amazon DataZone 使用指南_第20张图片

在目录中,选择“订阅”

一文了解 Amazon DataZone 使用指南_第21张图片

“订阅目录销售数据”窗口中,选择市场消费者项目,提交订阅请求的原因,然后选择“订阅”

一文了解 Amazon DataZone 使用指南_第22张图片

当您作为数据生产者收到订阅请求时,它将以销售生产者项目中任务的形式通知您。由于您在这里同时充当订阅者和发布者,因此您将看到一条通知。

一文了解 Amazon DataZone 使用指南_第23张图片

当您单击此通知时,它将打开订阅请求,包括请求访问的项目、请求者是谁以及需要访问的原因。选择“批准”,并提供批准理由。

现在订阅已经获得批准,您可以在市场消费者项目中查看目录销售数据。如需确认这一点,请选择顶部菜单中的“数据”选项卡和左侧导航窗格中的数据源

一文了解 Amazon DataZone 使用指南_第24张图片

要分析订阅数据,请选择顶部菜单中的“环境”选项卡和您在市场消费者项目中创建的订阅环境。它在右侧窗格中显示了一个新数据查询链接。

一文了解 Amazon DataZone 使用指南_第25张图片

我们可以看到目录销售表格显示在订阅数据库下。


为了确定我们是否有权访问这个表格,可以先预览,之后能够看到查询执行成功。

在一个新选项卡中打开了 Athena 查询编辑器。从数据库下拉列表中选择 subscribeenvironment_sub_db ,然后在查询编辑器中输入您的查询。

一文了解 Amazon DataZone 使用指南_第26张图片

现在,您作为消费者(市场团队)已经订阅了销售数据,可以对由生产者(销售团队)发布到业务数据目录中的销售数据表格运行任何查询。

正式发布后有哪些新增功能?

在预览期间,很多客户表达了喜爱,并提出了良好的反馈建议。在此快速回顾一下这些功能,并介绍亚马逊云科技做的一些改进:

企业级业务目录 — 为了添加业务内容并使组织中的每个人都能够发现数据,您可以使用自动元数据生成自定义目录,该目录使用机器学习来自动生成数据资产,以及这些资产中的业务名称栏目。我们还改进了元数据管理功能。您可以将多个业务词汇表术语附加到资产,并将词汇表术语添加到资产中的各个栏目。

数据用户自助服务 — 为用户提供发布和使用数据的数据自主权,您可以使用 API 自定义任何类型的资产并添加到目录中。数据发布者可以通过接收作业自动发现元数据,也可以通过 Amazon Simple Storage Service (Amazon S3) 手动发布文件。数据消费者可以使用分面搜索来快速查找和理解数据,通知用户系统中的更新或需要采取的操作。您还可以使用 Amazon EventBridge,将这些事件发送到客户的事件总线,从而自定义操作。

简化分析访问权限 — 项目将作为基于业务用例的逻辑容器。您可以创建一个项目,并基于人员、数据和分析工具进行特定业务用例分组相互协作。在项目中,您可以创建一个环境,为项目成员提供必要的基础架构,例如分析工具和存储,以便项目成员可以轻松地生成新数据或使用他们有权限访问的数据。用户可以根据自己的需求向同一项目添加多个功能和分析工具。

受控数据共享 — 数据生产者拥有并管理对数据的访问,通过订阅审批工作流程,消费者可以请求访问,数据所有者可以批准。现在,您可以设置在发布时附加到资产上的订阅条款,并通过使用 EventBridge 事件对其他来源进行自定义,自动执行亚马逊云科技管理的数据湖和 Amazon Redshift 的订阅授权。

立即使用

目前,Amazon DataZone 在11个亚马逊云科技地区广泛使用:美国东部(俄亥俄州)、美国东部(弗吉尼亚州北部)、美国西部(俄勒冈州)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)、加拿大(中部)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(斯德哥尔摩)和南美洲(圣保罗)。

您可以使用 Amazon DataZone 的免费试用版,包含 50 名用户,在使用的前 3 个日历月内无需支付额外费用。当您首次在亚马逊云科技帐户中创建 Amazon DataZone 域时,就可以开始免费试用。如果您在试用期间超过了每月用户数,将按标准价格向您收取费用。

如需了解更多信息,请访问产品页面(https://aws.amazon.com/datazone/)和用户指南(https://docs.aws.amazon.com/datazone/latest/userguide/what-is-datazone.html)。您可以将反馈意见发送至 Amazon re:Post for Amazon DataZone(https://repost.aws/tags/TAeDnijUDURuG0rz_JUCxy3Q/amazon-datazone),或发送给您常用的亚马逊云科技支持联系人。

本篇作者

一文了解 Amazon DataZone 使用指南_第27张图片

Channy Yun 

亚马逊云科技首席开发者布道师,他热衷于帮助开发者在最新的亚马逊云科技服务上构建现代应用程序。作为一名务实的开发人员和博主,他热爱社区驱动技术的学习和分享,他认为这可以将开发人员聚集到全球亚马逊云科技用户群中。他的主要课题是开源、容器、存储、网络和安全以及物联网。请关注他的推特账号 @channyun。

星标不迷路,开发更极速!

关注后记得星标「亚马逊云开发者」

一文了解 Amazon DataZone 使用指南_第28张图片

听说,点完下面4个按钮

就不会碰到bug了!

一文了解 Amazon DataZone 使用指南_第29张图片

你可能感兴趣的:(中间件,大数据)