让大厂也抓狂的数据治理,究竟什么样的企业能做成?这是一个问题。
数据治理这个话题似乎总是充满了矛盾。大家一边吐槽它是脏活累活,一边不得不面对一个事实——在约93%的企业开始探索数字化转型的今天,数据治理变得比以往任何时候都更为重要,但也比任何时候都更加困难: 一方面,国家、行业监管对数据治理的要求趋严趋细的同时,数据与企业业务结合越来越紧密,数据问题带来的业务影响越来越大,各方对数据治理的要求越来越高;另一方面,随着数据规模和复杂性的增加,以及企业内大范围员工用数,企业数据环境的复杂性指数级上升,数据治理难度发生了质的变化。数据治理要求和难度发生了巨变,数据治理方法论的实际落地也成为了一个极富挑战性的命题。我们在调研了近百家企业后发现,多数企业仍在使用过时的元数据技术,伴随着企业数据体系日趋复杂,多条业务线飞速发展,这样的技术已经无法满足企业今天的数据治理要求。
上下游部门焦头烂额,数据治理问题迟迟难以解决。寻根究底,无非是元数据的这几个“老大难”问题制约着企业数据治理能力。
表级血缘是现在企业使用最广泛的一种数据依赖分析技术,体现为“输入表-输出表”关系,但无法区分表中字段的加工关系,无法确定“直接和间接血缘”关系(或者强弱血缘关系)。在监管指标保障、安全合规分析、变更影响面评估、口径溯源等场景中,由于表-表关系太泛化,无法满足精细化分析需求,无法理解精细化的数据传播路径, 导致用户普遍感觉表级血缘“不好用”甚至“不敢用”。有些企业使用 Excel 人工盘点血缘链路,以弥补表级血缘的缺陷。但随着企业数据规模和复杂性增加,链路盘点工作难度也随之发生了“质变”:一个表有几十个列、扩散几万个下游、数据深度达到几十层,如果要人工盘点全链路的数据加工和流转链路,单凭 Excel 和人力已经远远无法支撑。
企业迫切需要至少到列级精细度的血缘数据以及 100% 准确的血缘关系,以支持精细化的数据治理场景。
企业的数据平台呈现多样性,例如一份数据的流转会经历 MySQL、Hive、Guass等多个数据库平台;在 Hive 平台上,用户也经常使用 SparkSQL、Python 等编程语言来处理数据,血缘解析要处理的往往不限于单一平台的 SQL 语句。另外,开源解析软件对各数据库语法支持程度参差不齐,一些特殊语法和编程方式都不支持。
以上原因导致企业在血缘解析上面临极大挑战,例如某客户 用开源技术解析 Hive 列级血缘准确率最多 70% ,某些平台的任务脚本甚至根本不支持解析,这使得数据血缘只能在极其有限的范围内使用。由于血缘解析覆盖度低、准确性差,往往带来 “影响面评估容易遗漏、来源去向看不准、基线打标失准”等等对数据治理工作影响极大的负面因素。
企业迫切需要 100% 覆盖数据流转链路的血缘解析技术,达到 100%解析准确性。
很多企业还在按天更新或者捕获元数据变更,例如一个表结构的变更要隔天才能在资产管理平台上看到。定制化的离线链路计算效率取决于开发者的个人经验能力,元数据产出时效无法稳定保障,在离线链路上“越跑越慢”的任务比比皆是。元数据的产出时延大,导致数据治理无法从“事后”走向“事前”,如发布前的模型管控、新增敏感数据的识别、违规数据使用的防范等等,极易放过高风险变更,引发数据质量、合规风险。
企业迫切需要实时元数据,以在工作中第一时间规避高风险变更。
随着企业数据类型的增加,元数据采集需求也越来越多,纵观整个采集入库过程,存在着大量重复 ETL 工作,拖累了新元数据源集成的效率。例如数据库元仓是标准的元数据模型,但是很多企业在对接这类标准模型时还需要人工逐个开发入库;一些自研系统的非标准的元数据需要 ETL 加工处理和建模,采集入库的程序同样需要人工逐个开发。在元数据建设上,企业也很容易进入“烟囱式的数据开发”陷阱,导致历史数据债务越积越多。当用户进行元数据分析时,往往需要先学习现有模型关系,再关联多个元数据的表才能取出所需的结果。
企业迫切需要元数据接入的标准方案,以快速、低成本的接入新的元数据源;构建统一元数据模型,以提升元数据管理和分析的效率。
由于上述元数据不够细、不够全、不够准、不够快等种种限制,在企业数据治理步入深水区的背景下,过时的元数据技术所带来的制约性日益显著,在很多实际工作场景中,由于元数据无法被依赖,“人肉式”、 “众筹式”的数据治理成为了很多企业不得已的选择,同时也带来了大量的问题:
也正是由于缺乏一份好的元数据,企业只能采取粗放的、被动的和运动式的数据治理方式来应对。之所以粗放,是因为元数据精细度不够;之所以被动,是因为元数据时效性不够,之所以依赖运动式治理,是因为元数据的全面度、精准度不足,只能发动群众“众筹式”治理,带来的后果便是高昂的成本、一次次的全体动员,一次次的 CIO 工程…
实践证明,“堆人堆时间”的模式不仅成本高昂、出错概率大,效果也无法持久,显然并非良策。要想真正改善数据治理落地效果,破局的关键在于一份好的元数据,让数据治理的效果在企业高效落地,支持数据治理走向长期和自治。
在 2022年 Gartner 公布的顶级战略技术趋势中,Data Fabric 作为一种面向未来的数据管理架构思想入选为工程信任主题的关键技术趋势,而主动元数据则被认为是实现 Data Fabric 和主动数据治理的基石。 Gartner 将未来的数据管理比喻成“具备自动驾驶能力的汽车”,数据管理策略在人的监视下自动运行,而数据管理策略的有效性绝大部分取决于主动元数据建设的好坏。
可见,企业落地 Data Fabric 和主动数据治理的首要任务就是构建全面、精细、准确、实时的主动元数据, 并持续优化以获得更好的数据管理效果。
✦ 全面: 企业的数字资产都可以接入到元数据语义图谱上,端到端看清数据流转链路,在链路治理等场景中(数据溯源、影响评估)无遗漏无断点。
✦ 精细: 主要的数据血缘链路要支持口径级理解和精准扩散、精细化影响评估。
✦ 准确: 血缘解析结果、加工口径分析结果和人工理解一致、数据分类分级打标和传播准确、变更评估结果和人工评估结果一致。
✦ 实时: 实时捕获和处理元数据变更,支持元数据实时应用场景,例如发布管控、实时分类、链路异常预警。
有了这份全面、精细、准确、实时的主动元数据,企业数据治理就具备了从粗放式、被动式和运动式向精细化、主动化和智能化的数据治理能力演进的基础。
Aloudata 大应科技创始团队从 2019 年开始以 “用数据治理数据”的工作理念在蚂蚁集团推进全域数据治理,在构建全面、精细、准确、实时的主动元数据能力上进行了大量实践,在 EB 级数据体量上实现了安全合规治理、计存成本治理和数据质量治理 等领域的自动化和智能化,这些实践经验同时也在金融行业头部企业得到了广泛应用。
自 2021 年 5 月 Aloudata 成立后,团队结合业界先进的 Data Fabric 架构理念 ,基于独创算子级数据血缘技术,推出了 BigMeta 主动数据治理平台。 以业界领先的技术和理念,深入回答了如何为企业打造一份“好的元数据”,消除数据治理技术瓶颈,提升数据管理效率。BigMeta 目前也已落地多家金融头部企业,在高复杂度的数据环境中实地验证,达到了100%精准度的列级血缘和 99%精准度的口径解析成果。
该企业以 Hive 平台为数据仓库,视图和表的数量达到 50万+,Hive SQL脚本约 5 万。 由于业务复杂,代码的复杂性非常高;在多数脚本中,都包含了临时表、宏替换、子查询、多段Union、lateral View集合函数等用法,基本上涵盖了 Hive SQL所有语法特性。在这样高复杂度的数据环境之下,经客户方数十人近一个月的产品使用后,最终一致得出“目前在国内尚未看到同级别精准血缘能力”这一结论。
除了Hive 平台血缘解析,BigMeta 还设计了灵活可扩展的产品架构, “可插拔”多平台的 SQL 类语法解析器、支持主流数据库的元数据的批量和实时采集,方便企业构建全面、统一的元数据服务底座。
与此同时,BigMeta 支持自定义资产对象和关系,对于Java、Python 等编译类程序、指标报表等非标准关联关系,用户可自定义扩展实体属性和关系元数据模型定义,通过产品导入到血缘图谱中,构建端到端联通的元数据语义图谱。在这份“企业级元数据语义知识图谱”上,BigMeta还 提供了多种行业解决方案,帮助企业快速、高效开展数据治理业务。
Aloudata BigMeta 在复杂度爆炸性增长的数据生态体系下为企业提供全面、精细、准确和实时的元数据基座,也进一步带来了自动化、自治化的治理能力升级。这让传统数据治理的工作模式发生了颠覆性的变化,以往严重依赖人工的数据盘点和链路分析工作都可以在元数据支撑下高效完成,帮助企业节省大量成本和时间投入,并持续获得治理收益。
目前,Aloudata BigMeta 已经支持字段口径溯源、精准影响面分析、自动化资产判重、可视化字段口径和链路对比、自动化安全合规分类分级、精细化元数据标签传播等多种元数据智能能力,并围绕上述核心模块的实践,正式发布涵盖数据资产盘点、主动模型治理、数据可观测行、安全合规治理等【基于主动元数据的多场景数据治理解决方案】 ,详解数据驱动型企业数据治理新方法,为企业提供长期、高效的应对措施去落地数据治理动作,快速打造高质量数据资产,实现数字化转型升级。