本文根据 2023 云栖大会演讲实录整理而成,演讲信息如下:
演讲人:田奇铣 | 阿里云 DataWorks 产品负责人
演讲主题:大模型驱动 DataWorks 数据开发治理平台智能化升级
随着大模型掀起 AI 技术革新浪潮,大数据也进入了与 AI 深度结合的创新时期。2023 年云栖大会上,阿里云 DataWorks 产品负责人田奇铣发布了 DataWorks Copilot、DataWorks AI 增强分析、DataWorks 湖仓融合数据管理等众多新产品能力,让 DataWorks 这款已经发展了 14 年的大数据开发治理平台产品,从一站式向智能化不断升级演进。
进入 AIGC 时代,AI for Data 和 Data for AI 成为当下的热词。AI for Data,这个比较好理解,通过大模型驱动的 AI 智能助手,可以提升数据平台工具的效率。DataWorks 为企业搭建了一站式、全链路的工具链,在这个过程中,也源源不断地为企业构建数据资产,比如数据模型、元数据、数据血缘、数据指标等,在大模型时代,这些也可以称之为企业专属的领域知识,借助大模型强大的语义理解、推理、上下文学习、记忆能力,通过大模型的 Prompt Engineering,DataWorks 一站式平台可以为 AI 智能助手提供更接近的、更及时的、更全面的上下文信息,从而可以让AI 获得更好的效果和性能,这是 Data for AI。有了良好的数据基础,今天我们发布的众多新品就是借助 AI 大模型的能力,通过 Data + AI 双轮驱动,为数据开发和分析提供了新的范式,进一步提升企业获得数据价值的效率。
DataWorks Copilot 是基于 NL2SQL 大模型打造的 SQL 编程助手,我们使用基于公开的数据集训练和微调的 NL2SQL 大模型,结合 Prompt Engineering,提供了丰富的自然语言生成 SQL 的操作。
输入想要查询分析的自然语言描述,例如“统计最近 7 天的商品销售排行”,DataWorks Copilot 将自动生成对应的 SQL 语句。
在 SQL IDE 中编写 SQL 代码时,DataWorks Copilot 能够提供智能代码提示建议,提升 SQL 编程效率。
当 SQL 运行报错时,DataWorks Copilot 可提供一键纠错服务,帮助 ETL 工程师和分析师快速修复 SQL 错误。
以前写代码注释是个负担,我们自己不想写注释,却又希望别人的代码有注释。DataWorks Copilot 可以批量为建表语句生成字段 Comment 信息,也可以为 SQL 语句添加逐行注释,提升 SQL 的可读性。
对于部分业务人员或者分析师,经常拿到是数仓工程师给到一段比较复杂的取数脚本,使用到的一些高级 SQL 语法和函数不懂什么意思但又想改一改取数逻辑,以前就要到处查资料或者请教别人。DataWorks Copilot 可以直接对 SQL 代码进行解释,帮助我们的业务人员更快理解 SQL 逻辑、用途,提高取数分析和 SQL 学习的效率。
DataWorks Copilot 智能 SQL 编程助手,在我们内部已经使用了一段时间了,根据我们的一些观测,可以为 ETL 开发和数据分析提效 30% 以上。
从 GUI 到 LUI,DataWorks Copilot 辅助 ETL 数仓开发
40 多年前出现了图形用户界面(GUI),大模型强大的自然语言理解能力,带来了全新的自然语言用户界面(LUI),这也是一种全新的人机交互方式,一个软件产品,能否提供 LUI,这也是大模型应用从AI智能助手迈向 AI 原生应用的标志能力之一。DataWorks 也在思考和探索,如何将复杂的产品操作逻辑隐藏在背后,借助大模型,对用户提供简单直接、更符合人性的自然语言用户界面。
我们做了一些产品实践。举几个应用场景,在实际工作中,找表是件头疼的问题,业务人员为了计算一个指标要找数仓的同学问该用哪张表,数仓同学天天应付这类咨询,也很烦躁。DataWorks Copilot 则可以提供通过自然语言快捷找表,让找表这件事情不用东问西问,从而提升企业的数据消费效率。在 ETL 开发过程中,有些操作是比较复杂或者繁琐的,比如调度配置、参数配置、数据质量规则配置,过去往往需要到不同的产品页面来回跳转和手工配置,现在 DataWorks Copilot 提供了对话式的自然语言用户界面,在一个统一对话窗口中,通过自然语言交互就可以完成很多跨产品工具的操作,比如说一句“给某某表配置一个什么质量规则”就可以完成数据质量检测的规则配置。未来,我们将持续丰富自然语言交互界面的覆盖范围。
DataWorks Copilot 提供了两种模型服务,第一种是基于公开数据集训练和微调的NL2SQL 大模型,当前在阿里云 DataWorks 官网可以直接申请参与邀测。如果有的企业对我们的模型效果有更高的期待,或者希望 Copilot 能够回答更贴近企业内部业务,我们可以提供企业专属的模型微调服务,结合阿里云人工智能平台 PAI 以及大模型专家服务,可以为企业量身定制专属代码大模型以及私有化大模型部署服务。
企业在数据生产建设上投入这么多资源,最终希望是洞察数据中的业务价值,指导企业的经营、决策。传统的统计分析方法常常先假设一种统计模型,然后根据数据样本来估计模型参数,从而了解数据的特征,但实际中往往有很多数据并不符合假设的统计模型。探索性数据分析强调让数据自身“说话”,先对数据特征、统计量进行探索,然后再选取合适的模型进一步分析,这是一种更加贴合实际情况的分析方法。在 AI 时代,数据洞察也不断向智能化演进,AI 增强分析利用 AI 技术,可以加速或者自动化数据探索与洞察,帮助分析师从手工数据探索中解放出来。AI 技术还能更好地发现数据中隐藏的规律和趋势,帮助分析师进一步突破自身固有认知的局限。
DataWorks 联合 DataV 数据可视化产品,深度结合 AI 技术,推出了 AI 增强分析产品。目前提供了四项核心能力:
自动探查数据集,无需专业技术背景即可快速了解数据特征、统计分布。
基于自动数据探查的信息,自动生成数据图表卡片,结合 AI 技术,自动识别不同数据字段组合之间的相关性并生成图表,不需要你手动写很多 SQL 进行分析,可以帮助你快速获得灵感,保存见解。
结合大模型技术,通过自然语言生成 SQL 查询数据,并自动为查询结果自动推荐和生成数据图表卡片。
可以像制作 PPT 一样,将上面生成的数据图表卡片一键生成数据长图报告,支持导出为图片或者一键分享。
DataWorks AI 增强分析,让数据自己“说话”,将数据洞察过程尽可能的自动化、无代码化,通过 AI 还能自动发现数据中的潜在趋势,讲好数据故事,表达数据观点。这款产品目前在公测当中,大家开通 DataWorks 后进入数据分析产品即可申请公测体验。
随着市场的不断变化,企业业务也不断的发展,企业面临的竞争和不确定性也越来越大,数据需求从简单的查询、统计到 BI 到数据科学到推荐预测到 AI 应用,整体上从简单的固定查询统计到复杂多变灵活的智能化分析,相应企业数据架构也发生了变化,从数据库到数据仓库到数据湖,再到湖仓融合,整个演进过程是在追求更高的数据效率和更好更快的满足企业的各种灵活多变的数据需求。湖仓融合数据架构既兼顾数据仓库的规范性和企业级能力,又兼顾数据湖的灵活性和生态开放性,成为越来越多企业所关注的数据架构。
DataWorks 当前全面支持湖仓融合的数据管理,在存储层,离线数据仓库MaxCompute 和实时数据仓库 Hologres 以及数据湖存储 OSS/OSS-HDFS,它们之间已经在存储层做了无缝的打通,不需要复制移动数据就可以进行数据的联邦查询。在这之上,DataWorks 提供了统一的湖仓融合数据管理用户界面。
在数据集成上,DataWorks 本身支持 50 多种异构数据源的离线、实时同步入仓。今年新增实时数据入湖的能力,实现数据秒级实时入湖,并且支持在数据同步过程中自动进行库表字段的更新,同时在这个过程中也能够进行元数据的自动发现和注册,借助 DLF 可以在 DataWorks 数据地图里进行湖仓统一的元数据管理。
面向湖仓融合架构中多种计算引擎,如 MaxCompute、Hologres、Spark、Hive、Presto 等,提供了统一的 ETL 任务开发、任务编排调度和运维服务,实现统一的数据开发流水线,解决企业因数据架构不统一造成的数据生产链路割裂、不稳定等难以管理的问题。
DataWorks 新增支持了湖仓融合数据治理。不仅能支持湖仓统一的元数据管理、数据建模和数据质量管理,而且 DataWorks 的主动式、自动化数据治理工具“DataWorks 数据治理中心”也全面支持了 EMR+OSS 数据湖。
DataWorks 数据治理中心,将成熟的数仓治理能力全面扩展到了 EMR+OSS 数据湖。为了简化湖仓架构下的数据治理难度,让数据治理不再是运动式的,而是能够真正可持续、可跟进、可落地,DataWorks 数据治理中心,新增了“数据治理计划”功能,来协助用户完成主动式的数据治理规划和诊断。
数据治理计划内置了面向数据管理者的计算存储的成本治理、任务的稳定性治理等数据治理场景的模板,支持企业设置一个数据治理目标,提供多个维度的数据治理健康度的评估模型,帮助大家去评估数据治理的成效。
数据治理计划面向数据治理的执行者,提供 60 余项覆盖 5 个维度的治理规则库,结合设置的数据治理目标方向,数据治理产品可以自动推荐圈选和目标相关的数据治理问题,并且提供相应的治理手段和方法,帮助数据治理的执行者可以及时的发现问题解决问题。同时数据治理中心提供事前的问题拦截,在数据开发阶段可以事前发现很多的问题,比如代码规范问题,表明任务名命名规范问题,可以进行提前的拦截,这些事前拦截的插件和事后问题发现的插件都是允许支持企业自己定义。
数据治理应用:成本优化-无效任务自动化下线
随着企业业务的不断变化,企业人员变动,不可避免地会出现越来越多的无效数据任务,每天都在消耗着大量的计算成本和存储成本。传统的手动治理,需要依赖数据工程师人工分析判断,进行复杂的影响分析,还存在与相关被影响人员的沟通协同成本,极容易因不小心失误影响了线上任务造成故障,从而导致数据工程师因害怕出问题而对无效任务不敢治理,不愿治理。
DataWorks 数据治理中心,提供了一项称之为“优雅下线”的产品功能,可对无效任务进行批量的流程化、自动化的下线治理。首先会自动进行任务下线的影响分析,然后将任务下线分解为延迟调度、暂停调度、下线任务、备份产出表、删除产出表五个步骤,每个步骤还提供一个静默期并自动通知相关责任人或者受影响人。整个过程类似于一种“灰度下线”机制,一旦出问题可以快速恢复,并将影响范围降到最低。
在阿里内部数据团队,原先治理下线一组涉及到 30 个责任人的 1000 个任务,从拉群拉会沟通,分析下线影响,制定下线计划,各自分别执行下线操作到结果跟进,要花费 3-5 个月时间。有了 DataWork s数据治理中心的优雅下线功能,2 天完成治理动作,1 周完成影响观察,15 天即可正式结项。DataWorks 数据治理中心的优雅下线已经帮助阿里内部数仓团队成功下线了数万个无效任务,节省在大量的存储计算成本。
DataWorks 数据治理中心已经在 DataWorks 企业版提供服务,近期也会推出企业版的试用活动,大家可以关注产品的官网信息。
从 2009 年诞生在阿里巴巴集团内部开始,DataWorks 一直是一站式平台的倡导者与坚定执行者,包含从数据集成、数据开发的工具链、数据治理的工具链,以及到数据消费侧的分析及服务的产品,我们通过一站式平台不断为企业构建、沉淀企业的数据资产。在 AI 时代,DataWorks 将 14 年积累的产品能力不断与大模型进行融合创新,为企业一站式智能化的数据平台产品,提升企业数据流转效率,加速企业数据价值获取。