关键字: [Amazon Web Services re:Invent 2023, Amazon Glue, Data Integration, Amazon Glue, Etl Pipelines, Data Sources, Data Transformation]
本文字数: 2200, 阅读完需: 11 分钟
如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV15u4y1g7DG
您需要一种方法,连接、组合和转换来自不同来源的数据,以做出明智的业务决策。随着数据量的增长,传统的数据集成工具可能会变得复杂、耗时并且扩展成本高昂。参加本论坛,了解亚马逊云科技如何以优异的性价比帮助您实现数据集成目标。探索新的亚马逊云科技功能,使用户能够访问所有数据,轻松为分析和机器学习工作负载准备数据,构建和维护可扩展和有弹性的数据管道,并提高决策质量。
以下是小编为您整理的本次演讲的精华,共1900字,阅读时间大约是10分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。
亚马逊云科技数据集成部门总经理Santosh Chandra在2022年re:Invent期间,于第四天的活动上欢迎了与会者。他以热情洋溢的演讲介绍了会议的三位尊贵演讲者——他自己、Apache Airflow托管工作流总经理Sean Myron和管理总监Nishi Desai。据Santosh介绍,他们将以亚马逊云科技在数据集成领域的最新创新为主题,共同向观众展示一系列令人兴奋的宣布和解读。
在顺利进入主题之后,Santosh概述了他们要讨论的数据集成重要性及其成为全面了解业务的关键原因。他还详细解释了亚马逊云科技对数据集成的看法,包括其关键支柱和原则。接着,演讲者们将阐述亚马逊云科技在这些支柱上的关键投资,并在会上公布诸多新的、令人兴奋的公告。
接下来,Santosh表示他将把话筒交给Nishi,后者将通过讲述Goldman Sachs如何借助亚马逊云科技Glue简化其数据集成过程的案例来引导观众思考。最后,Santosh将在演讲结束时总结要点,并为听众提供更多深入的探讨方向。有了这个结构化的议程作为明确的指导,Santosh表示他对即将呈现给与会者的丰富公告和洞察充满期待。
为了让观众更好地了解亚马逊云科技Glue的实际应用,Santosh首先强调了使用Glue的客户来自不同行业和规模的成功案例。这些案例展示了亚马逊云科技致力于满足各类公司数据集成需求的承诺。例如,BMW在亚马逊云科技Glue上构建了一个自助服务数据集成平台,使超过5000名商业用户能够轻松使用。巴西银行AA Bank利用Glue和Data Mesh架构构建了他们的支付平台。制药巨头如默克和百时美施贵宝过去几年一直在使用Glue来创建加速药物发现的敏捷、无服务器ETL平台。此外,GoDaddy已将数千个管道迁移到托管Apache Airflow(MWAA)的工作流程,从而实现了显著的运营效益。
桑托什分享了一些令人印象深刻的统计数据,展示了亚马逊云科技Glue的庞大规模及其对数百万客户的影响。这些数据表明,Glue已经支持跨越超过100个数据源的数百种转换,每月执行数十亿次任务。在展示亚马逊云科技经过验证的数据集成能力后,桑托什转向讨论了数据集成为何如此重要。
用桑托什的话来说,数据集成是对数据进行吸收、清理、转换和编目的第一步,这是在对业务见解进行分析之前必须完成的。为了确保做出准确且全面的业务决策,必须正确地进行数据集成。过去,数据集成通常是一个耗时且复杂的手动过程,需要专门的ETL开发人员来完成。然而,如今企业更倾向于寻求实时、自动化的数据集成解决方案。桑托什列出了三个关键转变:
首先,企业现在期待快速获取最新的见解,以便做出明智的决策。这要求数据集成以接近实时的速度运行,而不是像以前那样在夜间进行批量处理。其次,公司希望数据集成能够与关键业务流程和操作系统无缝集成,而不是作为一个独立的过程运行。最后,组织致力于让更多的业务用户参与到数据集成过程中,利用适合他们技能水平的工具。
在介绍数据集成过程时,桑托什详细解释了各个关键步骤,包括识别数据源、建立数据合同、导入和转换数据、为下游系统组织数据以及不断测试和调整数据管道。尽管这个过程看似简单,但实际上面临着诸多挑战。业务团队抱怨交付速度慢、无法达到服务等级协议(SLA)标准以及与中央IT系统的紧密依赖。数据工程师需要在业务逻辑、基础设施和性能优化之间找到平衡点。此外,IT团队在应对价格上升但价值有限的各种分散工具供应商时也面临着管理难题。
在阐述数据集成的重要性和现实挑战后,桑托什进一步介绍了亚马逊云科技如何简化这一过程。他指出,亚马逊云科技通过四个核心支柱来实现数据集成:
亚马逊云科技致力于通过有目的的创新来改进各个领域,同时解决客户的常见问题。为了实现这一目标,Santosh深入研究了各个方面。在连接性方面,他认识到由于不同的授权模式、架构等因素,访问新数据源可能会遇到挑战。将新发现的数据源作为事后考虑的问题。为了解决这些问题,亚马逊云科技推出了Glue,通过与各种数据库、SaaS应用程序、流式源和开放文件格式(如数据湖)的广泛本地连接器,实现了与各种数据源的无缝连接。对于非原生支持的来源,Glue提供了自定义连接器SDK和连接器市场,合作伙伴提供产品。Glue连接器的关键设计原则包括可靠性、安全性、易用性和无增量收费——客户只需支付运行作业的费用,而不是连接器本身的费用。强调新的第三方连接能力,Santosh宣布Glue现在可以原生支持10多个数据库和仓库连接器,如Snowflake、Teradata、Vertica、BigQuery、CosmosDB、MongoDB和SAP Hana。这些连接器被嵌入到Glue中,以实现无缝访问。其他主要的新连接功能包括高性能的Amazon Redshift和OpenSearch连接器。Redshift连接器简化了元数据管理,通过利用Redshift优化加速ETL/ELT管道,并与Glue Studio集成,实现无代码访问。OpenSearch连接器通过查询索引并转换数据,实现了实时日志分析和应用程序监控的使用场景。Santosh进一步解释了如何使用OpenSearch向量数据库丰富来自大型语言模型(如Amazon Kendra)的响应。为了展示Glue的连接能力,Santosh展示了一个动画,展示了从MongoDB拉取数据,与Amazon S3数据连接,应用过滤器和连接器等转换,并将结果写入Teradata的端到端数据流程。这体现了跨第三方和亚马逊云科技来源访问数据的简单性。在转向下一个数据转型支柱时,Santosh承认没有单一工具能满足所有需求——数据科学家、工程师、业务用户和无代码用户都需要不同的界面。模块化至关重要,以便用户在管道之间共享工件。传统的工具在规模上的性能也存在问题。
易于部署,支持亚马逊云科技控制台、命令行和CloudFormation等多种部署方式;
Sean Myron,MWAA的通用经理,详细介绍了最新版本的MWAA所包含的内容。
Airflow 2.7.0.2,支持可延迟的操作符和启动/结束任务。This version of Airflow supports delayable operators and start/end tasks."
"- 支持GitLab和BitBucket用于作业版本控制。It also supports GitLab and BitBucket for task version control."
"- 增强Glue指标以改进Spark作业的监控、优化和根本原因分析。Enhanced Glue metrics improve monitoring, optimization, and root-cause analysis for Spark jobs."
"- Glue Spark UI,用于无服务器Spark监控和调试。The Glue Spark UI is available for serverless Spark monitoring and debugging."
"关于管理和确保数据质量,Santosh指出,不准确的数据来源可能会污染数据湖。Identifying inaccurate data sources that could pollute data lakes is important, as is identifying sensitive data like PII for compliance with privacy regulations, but it can be challenging to do at scale. Current tools are limited in scope and difficult to run at scale."
"亚马逊云科技的方法是在Glue管道中直接在静止和移动数据中嵌入数据质量检查。Amazon Web Services' approach is to embed data quality checks directly into static and streaming data within the Glue pipeline."
"Glue自动监控数据并对敏感数据检测或数据质量恶化等问题采取行动。This allows Glue to automatically monitor data and take action on issues such as sensitive data detection or worsening data quality."
"这在亚马逊云科技的无服务器基础设施上运行,消除了额外开销。This runs on Amazon Web Services' serverless infrastructure, eliminating additional overhead."
"Glue已经提供敏感数据检测,现在又添加了针对特定数据类型(如社会保险号码)的精细删减操作。Glue already provided sensitive data detection, and now adds fine-grained deletion operations for specific data types, such as Social Security numbers."
"对于数据质量,Glue利用规则、建议和声明式的数据定义语言。For data quality, Glue uses rules, recommendations, and declarative data definition languages."
"新推出的Glue数据质量引入了基于ML的异常检测,以自动找到数据问题并生成见解,而无需手动创建规则。New Glue data quality features machine learning-based anomaly detection to automatically identify data issues and generate insights without requiring manual creation of rules."
"这补足了现有的基于规则的检查。This complements existing rule-based checks."
"总之,通过连接、转换、编排和管理这四个支柱,亚马逊云科技正在快速创新,以通过新的Glue、MWAA、数据质量等功能简化和增强客户的数据集成能力。In summary, by connecting, converting, orchestrating, and managing these four pillars, Amazon Web Services is rapidly innovating to simplify and enhance customer data integration capabilities through new features like Glue, MWAA, and data quality."
"为了将公告变得生动,Nishi Desai(高盛公司)从客户的角度介绍了利用亚马逊云科技Glue作为其数据平台现代化历程的一部分。To make the announcement more engaging, Nishi Desai from Goldman Sachs shared how the bank used Amazon Web Services Glue as part of its data platform modernization journey from a customer perspective."
"Nishi分享了高盛公司如何通过利用数据来更好地为客户服务,从而保持了在全球并购、IPO和股权融资等产品上的领先地位。Nishi shared how Goldman Sachs improved its ability to serve customers by leveraging data and maintaining a leadership position in products like global mergers and acquisitions, IPOs, and equity offerings.
最大的挑战是调整他们的传统ETL流程,因为这一流程缺乏稳定性和灵活性。通过采用亚马逊云计算(亚马逊云科技)的Glue服务,高盛公司能够对其内部、云和第三方来源的复杂数据集进行建模。EventBridge和Step Functions负责协调具备错误处理功能的Glue ETL作业。指标被记录在DynamoDB和CloudWatch中。
关键的成果包括工作流程完成速度提高了35%,支持的数据量增长了10倍,新数据源的集成时间从数月缩短至数天,并且实现了99.96%的可用性。Nishi强调,这种简化的数据集成过程有助于高盛加速其交易员的业务往来并保持行业领先地位。
总的来说,Santosh总结道,在过去11个月里,亚马逊云科技推出了70多个新的数据集成功能,从而加快了其创新步伐。他向与会者提供了有关相关re:Invent会议和亚马逊云科技资源的链接,以便他们可以继续学习。
总的来说,本次会议全面概述了亚马逊云科技如何简化横跨关键支柱的端到端数据集成,以及诸如Glue数据质量、第三方连接器、Spark监控和NLP等新功能。像高盛这样的客户案例强调了利用亚马逊云科技的云原生无服务器产品来赋予数据工作者力量并加速洞察力的商业影响。与会者了解了最新的亚马逊云科技数据集成创新以及如何将它们用于创造价值的知识。
下面是一些演讲现场的精彩瞬间:
亚马逊云科技旗下的Glue和Amazon Q数据集成功能现已实现了通过自然语言处理(NLP)和简洁的英语编写整个数据管道的能力。
全新的Glue数据质量功能采用机器学习技术来监控数据质量,检测异常情况并推荐相应规则,从而为客户提供高质量的数据,以便做出自信的业务决策。
截图展示了一些领导者的观点,他们强调了Airflow丰富的用户界面,用于可视化和监控工作流程,其灵活的Python DAG处理依赖关系,以及其超过300个集成,以最大限度地提高数据管道的可重用性。
Apache Airflow 2.7.0.2版本的发布标志着亚马逊云科技的一个重大时刻,实现了更高效和经济实惠的工作流程。
亚马逊云科技的Glue还引入了增强的可靠性、性能和资源利用率指标,以实现对Apache Spark作业的详细分析和优化。
此外,领导者还为观众提供了更多的学习资源,以便了解更多关于亚马逊云科技数据集成、数据库、分析和产品创新的信息。
亚马逊云科技致力于通过四大支柱(连接、转换、操作和管理)简化数据集成过程。在四大支柱领域中,亚马逊云科技不断推出新功能。在连接方面,亚马逊云科技的Glue现已原生不收费地支持Snowflake、MongoDB和Teradata等数据库,并推出了针对Redshift和OpenSearch的高性能连接器。在转换方面,Glue增加了对DBT的支持,更大的工作区以及自动缩放的流处理。借助基于Amazon Q的NLP助手,管道编写过程将更加便捷,实现对话式操作。在操作方面,Apache Airflow的托管工作流程引入了Airflow 2.7,为管道提供更强的监控和故障排除功能。Glue还增加了集成的Spark监控和指标,以提高性能。最后,在管理数据质量方面,Glue Data Quality利用机器学习来自动检测异常并提供修复建议。现在,针对敏感数据的检测操作也可以进行定制。总之,亚马逊云科技正加速创新,过去11个月里推出了超过70项新功能,以简化整个数据集成过程。
https://blog.csdn.net/just2gooo/article/details/134833424
2023亚马逊云科技re:Invent全球大会 - 官方网站
点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!
点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!
【免费】亚马逊云科技“100 余种核心云服务产品免费试用”
【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。