关键字: [yt, Amazon Redshift, Data Quality Recommendations, Data Ingestion Automation, Sensitive Data Masking, Interactive Spark Analytics, Unified Data Discovery]
本文字数: 400, 阅读完需: 2 分钟
演讲者在”Amazon Cloud Technology - 为构建者提供15分钟新内容分析GenAI”中介绍了Amazon云科技的新分析服务和功能。具体而言,Amazon REDSHIFT现在支持从Amazon S3自动复制数据,简化了数据加载过程,并支持动态数据掩码,以保护敏感数据。演讲重点阐述了Amazon云科技如何通过REDSHIFT自动复制、GLUE DATA QUALITY自动推荐数据质量规则、ATHENA FOR APACHE SPARK进行交互式分析,以及AMAZON DATA ZONE在组织间发现和共享数据(内置治理)等服务,实现更快捷的数据引入和分析。
以下是小编为您整理的本次演讲的精华,共100字,阅读时间大约是0分钟。
定义可应用自定义遮蔽策略的掩码策略,例如处理信用卡实体、HIPAA或GDPR需求等的掩码策略;在查询时转换数据以应用掩码;将掩码策略附加到角色或用户;将具有不同遮蔽级别的多个掩码策略附加到表中同一列,并将它们分配给不同的角色,以避免冲突;通过在创建用户掩码策略时对列使用条件,实现细粒度掩码,从而部分或完全遮蔽数据或对其进行哈希处理。
接下来,让我们了解一下Amazon Web Services Glue Data Quality。亚马逊云科技在重要会议上宣布推出Glue Data Quality的预览版,这是Glue的一项新功能,可自动测量、监控和管理数据湖和数据管道中的数据质量。它能够将手动数据分析和规则识别工作从几天缩减到几小时,消除了当前数据质量挣扎中的手动数据统计分析、规则编写、代码开发和持续手动监控。
使用Glue Data Quality时,数据工程师可以从Glue数据目录中选择一个数据集,并请求数据质量规则推荐。Glue会自动计算最小值、最大值和相关性等数据统计信息。然后,它会利用这些统计信息为特定数据集推荐一组数据质量规则,用于检查数据的新鲜度、准确性和完整性。这一过程单单就能将数据质量的手动工作减少70%。
在获得推荐后,用户可以使用现成的数据质量规则对其进行调整,并关联当数据质量下降时要采取的现成操作。让我们进一步了解Data Quality的特点:首先,它无需维护任何基础设施。由于Glue Data Quality使用每天运行8000多个作业的无服务器基础架构,因此用户无需担心可扩展性问题,可自动扩展。其次,Glue Data Quality经过亚马逊团队在管理大规模数据湖的数据质量方面进行了测试。过去,数据工程师和数据管理员需要手动分析数据,而Glue Data Quality可在几分钟内提供规则推荐,而不是手动创建。在获得推荐后,用户可以使用现成的数据质量规则进行调整,并关联当数据质量下降时要采取的现成操作。
编写数据质量规则一直以来都是一项艰巨的任务,因为大多数规则都使用专有语言。为了解决这个问题,亚马逊云科技创建了DQDL(Data Quality Definition Language),这是一种声明式开放语言,可简化规则编写、促进数据集间的重用,并易于部署到更高环境。与此前许多工具仅关注数据质量解决方案或数据管道中的数据质量不同,Glue Data Quality可在数据集成工作流的任何位置设置。最后,由于数据工程师和数据管理员同样重视数据质量,因此亚马逊云科技为他们提供了适合各自工作流程的用户体验。例如,数据管理员可以在数据目录中工作,而无需担心数据管道或Amazon Glue作业的复杂性;而数据工程师则可以轻松地通过熟悉的API将数据质量集成到管道中。
那么,Glue Data Quality是如何工作的呢?无论是数据管理员还是数据工程师,都可以在Amazon Glue数据目录中选择一个数据集,然后单击”Amazon Web Services Glue Data Quality”。接下来,单击”推荐”按钮,Glue就会为其提供起点。用户可以添加新规则、修改现有规则或删除不需要的规则。然后,保存这些规则并执行它们。用户可以在”数据质量结果”页面查看结果。
对于创建可视化作业的数据工程师,他们可以在Amazon Web Services Glue Studio中构建管道,并在数据管道中添加”评估数据质量”转换。他们可以添加数据质量规则并关联操作。例如,可能希望在遇到低数据质量时停止作业。然后,只需运行管道即可。数据质量指标将存储在”数据质量”选项卡中。用户也可以选择将数据质量结果写入S3,然后对其进行查询。
数据工程师、IT专业人员和业务分析师在数据迁移和准备分析过程中扮演着重要角色,他们的技能涵盖了从SQL到Scala的广泛范围。
接下来,让我们了解一下Amazon Athena的进展。Athena使临时分析变得非常简单。它建立在开源框架之上,是无服务器的,支持广泛的文件格式和事务性数据湖格式,并且可以通过联合查询访问其他数据源。使用Athena,用户无需管理任何服务,也不需要支付前期最低费用或设置费用。用户只需为在Athena中运行的查询付费。
在重要会议上,亚马逊云科技宣布Athena for Apache Spark正式全面可用。这是Athena的一项新功能,可让用户比以往更快地运行Apache Spark交互式分析,而无需规划、配置和管理资源。借助Athena for Apache Spark,交互式Spark应用程序可在1秒内启动,并通过优化的Spark运行时运行得更快。因此,用户可以花更多时间专注于洞见,而不是等待结果。Athena使用户能够使用Python的表现力构建和运行Spark应用程序,并在Athena控制台或通过Athena API享受简化的笔记本体验。Athena与其他亚马逊云科技服务深度集成,使用户能够从各种源查询数据、将多个计算链接在一起,并可视化分析结果。
最后,让我们来看看Amazon Data Zone。要充分利用数据,用户需要全面了解业务的360度视角。而要做到这一点,用户必须能够查看跨多个业务单位的所有数据。这就是亚马逊云科技推出Amazon Data Zone的原因,它是一项全新的全集成数据管理服务,赋予组织内的每个人以跨业务单位做出数据驱动决策的能力。
使用Data Zone,用户可以获得一个完整的业务数据目录,在其中搜索和请求访问所需的数据进行分析。客户可以轻松地将数据资产(如数据集、数据库表等)添加到目录中,并以安全、受控的方式进行协作。所有这些都是在内置的治理和访问控制下完成的,因此只有需要访问数据和执行分析的人员和系统才能获得访问权限。
Amazon Data Zone使客户能够在组织边界内以内置的治理和访问控制方式发现和共享数据,从而消除了使数据和分析工具对组织内所有人可访问的无差别繁重工作。Data Zone提高了业务和数据团队处理数据、获取洞见并做出基于数据真相的明智决策的运营效率。
使用Amazon Data Zone,组织内的任何人都可以通过个性化的Web应用程序发现新的、有趣的数据领域,而无需掌握底层亚马逊云科技服务的专业知识。数据生产者(如数据工程师、数据科学家等)可以安全地与组织内的其他人共享数据、撰写业务上下文,而数据消费者(如数据分析师等)则可以从数据中找到业务问题的答案,并与组织内的其他人分享。
这种工作流程允许客户创建一个去中心化和联合所有权模型(即数据网格),其中数据生产者发布、拥有和管理他们的数据,并与数据消费者建立发布协议,然后数据消费者在完成与数据所有者的审批工作流程后,即可访问他们感兴趣的数据。
总之,亚马逊云科技在2022年重要会议上推出了一系列令人兴奋的新功能和服务,涵盖了数据复制、数据质量、交互式分析和数据管理等多个方面,为客户提供了更加智能、高效的数据解决方案。这些新功能和服务将帮助构建者更好地利用数据,提高工作效率,推动数据驱动型决策,从而为企业带来更大的价值。
亚马逊云科技持续加强其数据分析能力,助力构建者充分发挥数据潜能。在2022年亚马逊会议上,推出了令人振奋的新功能和服务,简化数据摄入、确保数据质量,并实现跨组织无缝协作。
首先,Amazon Redshift现在支持从Amazon S3自动复制,仅需一条简单的SQL命令即可简化自动数据加载。该功能支持持续和增量数据摄入,无需自定义管道或外部框架。此外,Redshift引入了动态数据掩码,允许客户通过基于角色的访问控制和可定制的遮蔽策略来保护敏感数据。
其次,亚马逊云科技Glue Data Quality是一项新的预览功能,可自动测量、监控和管理数据湖和管道中的数据质量。它根据计算的统计数据推荐数据质量规则,减少了高达70%的手动数据分析工作。该功能使数据工程师和管理员能够以最小的努力确保数据的新鲜度、准确性和完整性。
第三,Amazon Athena for Apache Spark支持交互式Spark分析,无需资源规划或配置。借助优化的Spark运行时,交互式Spark应用程序可在一秒内启动并更快运行,让用户专注于洞见而非等待结果。
最后,Amazon Data Zone是一项全面集成的数据管理服务,使组织中的每个人都能够在业务单位内大规模做出数据驱动的决策。它提供了业务数据目录、安全的数据共享和协作功能,促进了数据生产和消费的去中心化和联合所有权模式。
这些公告彰显了亚马逊云科技简化数据管理、确保数据质量和实现无缝协作的承诺,助力构建者充分发挥数据潜能,推动业务成功。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选,通过生成式AI技术栈,提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 – 在中国,亚马逊云科技通过安全、稳定、可信赖的云服务,助力中国企业加速数字化转型和创新,并深度参与全球化市场。