简介:阿里大淘系数据体系经过多年发展,通过丰富的数据和产品支撑了复杂的业务场景,在数据领域取得了非常大的领先优势。随着数据规模越来越大,开发人员越来越多,虽有阿里大数据体系规范进行统一管理,但是由于没有在产品侧进行有效的模型设计和管控,在模型规范性、应用层效率、通用层复用性等方面的问题逐渐凸显。计存成本提升、效率降低、规范减弱、数据使用难度变大、运维负担增加等。为了解决这些问题,我们进行了大淘系模型治理专项,在数据服务业务的同时,追求极致的降本提效目标。
导读:阿里大淘系数据体系经过多年发展,通过丰富的数据和产品支撑了复杂的业务场景,在数据领域取得了非常大的领先优势。随着数据规模越来越大,开发人员越来越多,虽有阿里大数据体系规范进行统一管理,但是由于没有在产品侧进行有效的模型设计和管控,在模型规范性、应用层效率、通用层复用性等方面的问题逐渐凸显。计存成本提升、效率降低、规范减弱、数据使用难度变大、运维负担增加等。为了解决这些问题,我们进行了大淘系模型治理专项,在数据服务业务的同时,追求极致的降本提效目标。
参与团队:
数据技术及产品部-大淘系数据团队
数据技术及产品部-数据安全生产平台
计算平台事业部-DataWorks产品与研发团队
一 数据现状
为了更好的分析当前大淘系的数据问题,我们进行了详细的数据分析,首先进行数字化。(整个问题分析有详细的数据支撑,涉及到数据安全,因此只抽象问题,不展示具体数据细节)。
通过对当前数据问题的数字化,我们发现问题涉及到数据的评、建、管、用各个环节。
评:缺乏一套统一数据评估体系。数据问题的发现以往主要通过专家经验、开发使用环节发现和离散型的数据分析得到,缺乏一套统一的数字化评估体系。数据量有多少?不同层次的数据分布如何?表的命名规范性如何?表的复用性如何?表的加工效率和消费效率如何?如何评价数据建设、使用和维护的好不好?好的数据应该通过哪些指标评估出来?
建:基于数据问题分析我们发现:在统一进行通用层构建和治理的时间段,数据在规范性、复用性、链路复杂度、使用效率等方面表现较好,但是在没有进行统一构建和治理的时间,数据在各方面都表现不好。原因在于:我们有一套阿里大数据体系规范,但是我们并没有一套覆盖设计、评审、开发、管控、治理的建模开发产品。
管:数据构建完成后后,并没有有效的对数据进行成本、复用性、效率、健康情况的管理,通常依赖于集中治理、专项治理或推送治理。成本高、迭代慢。同时还存在表管理分布不均的问题,有些owner承担了大量的管理和运维工作,数据交接后难以维护,导致数据使用难度高。
用:数据最终是为了使用,通过数据分析和调研问卷来看,普遍存在以下问题:找数难、不会用、不敢用等问题。就导致除了一些非常核心的模型数据外,很多开发者宁愿重新开发也不愿去花费很大精力去找数和理解数据,造成恶性循环。
针对对问题的分析,我们确定了以下目标:
1、模型数字化:构建一套通用的大淘系模型评估体系,能够清晰的从多个维度评估当前数据的健康情况,针对问题数据提供改进建议。
2、提效公共模型下沉:定义清晰通用层数据下沉标准,能够清晰的界定哪些数据应该沉淀到通用层,对于需要沉淀的数据要及时进行沉淀。
3、产品化:通过共建开发一套覆盖设计、评审、开发、管控、治理的建模开发产品。
4、日常治理:日常监控模型健康情况,并进行治理优化。
5、找数提效:通过共建提高数据检索效率,提高推荐准确度,将核心数据在数据专辑展示。
DataWorks是基于MaxCompute/EMR/Hologres等大数据计算引擎,提供专业高效、安全可靠的一站式大数据开发与治理平台。通过与DataWorks团队进行深度共建,利用大淘系多年积累的模型、开发、运维等数据经验提供输入和DataWorks强大的产品研发能力,进行智能建模、开发助手、数据地图等功能的升级,实现数据设计、开发、管控、使用全链路产品化,解决长久以来的数据问题。
目前,DataWorks智能数据建模产品完成了数仓规划、数据标准、维度建模、数据指标四大产品模块的重大产品功能迭代,具备逆向建模、正向可视化建模、excel建模、代码建模等产品能力,并完成了DataWorks智能数据建模产品在2021年云栖大会的新功能重磅发布。
DataWorks智能数据建模产品全新发布的核心产品功能主要包含以下内容:
数仓规划:
维度建模:
以上产品功能能很好的解决模型建设规范性和提效的目的。
数仓规划
维度建模
开发助手可以在代码开发中进行权限提醒、发布管控、临时表自动构建等。
我们将模型分评估在内部通过数字大盘的形式展示,并将对应的治理建议通过治理跳转的方式直接跳转到相应的产品页面进行操作。
为了更好的实现复用,模型分支持快速配置接入,只要提供project清单即可通过修改配置快速接入对应BU的数据,产出表级别、owner级别、BU级别模型分及治理动作。
模型大盘的治理项使用了全链路血缘和标签能力,可以比较精准的实现针对性治理。
找数提效方案:
目前,数据地图上线了团队常用表、猜你会用、热门浏览、热门读取、数据专辑、搜索优化、表说明升级等,表说明功能已完成升级;数据专辑的多人协作维护、展示和修改收藏备注发布、专辑增加使用说明功能。对于找数、用数、数据维护具有重要的意义。【搜索&推荐】搜索结果过滤增强
【内容&组织】表说明功能升级
【内容&组织】数据专辑
【内容&组织】数据地图与DataWorks数据打通
1)搜索推荐
2)数据专辑
数据专辑中将核心表集中展示,可以有效实现核心表的查找和使用。
3)专辑说明
将结构化的知识集中管理,支持语雀知识导入,更好的管理和维护数据。
4)数据百晓生
将数据知识进行算法处理,透过机器人问答实现找表、用表等。为此我们结合内部机器人产品构建了智能答疑机器人。
经过FY22大淘系模型治理专项,通过大淘系内部开发、与DataWorks团队&数据安全生产平台共建,实现了以下重要能力:
目前,大淘系模型治理已经取得了非常好的阶段性成果,在产品共建、模型分评估、找数提效方面都有很好的效果产出。但仍然存在一些未解决问题:
下阶段将针对尚未解决的问题进一步深入解决:
我们会针对当前存在的架构问题进行升级,从架构原则、设计规范、开发规范、运维规范、治理规范、共建机制等方面进行方法论的升级,以更好的适应当前阶段的数据研发现状,切实的从架构层面为降本、提效提供有效保障。
继续与DataWorks团队共建,进一步提高通用层、应用层开发效率,从产品层面提供保障。
官方专辑快速接入:当前官方专辑构建需要专人进行配置和维护,后续可以考虑降低接入成本,下放到各个团队进行自主接入和维护,提升数据专辑的丰富度和易用性。
进一步打通数据开发和使用环节:将智能建模的数据与数据地图进一步打通,实现核心模型的快速筛选和透出。
多角度提升表查询和使用的能力:从表说明、表答疑、数据知识提取等方面实现对找表、用表、表答疑的简易度提升,结合文本算法、机器人等技术和产品能力,实现数据知识的智能生成。
开发助手在表推荐和表管控方面可以进一步升级。
针对当前的模型分加入模型血缘相关的信息,做厚大淘系通用层,为业务提供更好的通用层数据支撑。
表自动化下线:实现模型、表、服务的自动化下线&专家经验下线,提高数据下线效率,降低人工介入成本。
DataWorks智能数据建模产品帮助文档:https://help.aliyun.com/document_detail/276018.html
文章转载自阿里开发者
原文链接:https://developer.aliyun.com/article/937026?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。