《数智洞见》
数字化浪潮席卷而来,颠覆性创新正在加速。企业面临着前所未有的挑战和机遇,数字化转型成为其生存与领先发展的关键突破口。据研究数据显示,数字化转型程度高的企业获得快速增长的几率是程度低的企业四倍之多。如何进行数字化转型、如何通过利用大数据,找到新的机遇和价值增长点成为越来越多企业关注的话题。
袋鼠云数栈赋能20+行业,服务3000+客户,是研究数字化转型解决方案的先行者,产品融合了大数据行业云原生、信创、湖仓一体、批流一体、多引擎兼容、跨云能力等多项前沿技术,在金融、政府、教育、军工等众多行业领域积累了丰富的解决方案经验。本次袋鼠云数栈以“数智洞见”专栏为交流窗口,将先进的技术和产品方案经验进行传递、分享,旨在帮助解决数字化转型的痛点与困惑;同时探讨转型思路和机遇,助力更多行业伙伴完成数智化升级、成为数据价值释放的“受益者”。
本专栏每周更新1-2篇,敬请关注。
Vol.06
作者|灵江
编辑|雨濛
本文2002字 阅读约7分钟
数据资产管理的概念非常广,可以做的事情也非常多。企业在考虑立项做数据资产管理或者数据治理的时候,往往不知道从何入手。然后在一众数据治理厂商的概念灌输下,匆匆上马项目,落地后却发现治理前后的改进效果并不大。本文梳理了企业常见的几个数据资产管理痛点和解决方案,大家可以结合企业自身的数据状况对症下药。
01
● 痛点一:元数据分散、缺失,缺少管理工具
随着业务的发展,企业的内部数据越来越多,用户获取数据的成本也越来越大。比如A部门需要调用B部门的数据时,需要先协调B部门的相关人员配合答疑。甚至同部门内入职新员工时,因为没有元数据沉淀,在理解历史数据时需要逐个请教老员工,新人培养成本极大。
● 解决方案:
1.元数据统一采集:采集企业各个部门的元数据信息至同一平台,对数据进行分类管理,然后提供统一的对外查询服务。不需要用户登录各个业务系统或者数据库查询元数据,节省了操作成本的同时又避免了数据泄露的风险。
2.元数据统一管理:能够在数据库中采集到的元数据信息是有限的,光凭这些信息用户可能仍然不足以理解一份数据的含义。这时候我们就可以在采集的基础上,为每份数据维护更多的业务属性信息,最大限度地让数据理解这件事情能够线上自主完成,而不需要线下协调沟通。
3.元数据统一分析:全局的统计分析能够让数据管理人员更好地掌握企业数据状况。并且元数据管理并不是一蹴而就的事情,需要逐步推进完善,这个过程就需要相应的监控分析进行管理。
02
● 痛点二:缺乏体系化的数据标准建设和应用工具
在企业数据管理过程中,最普遍出现的一个问题就是:数据同名不同义、同义不同名。这个问题会出现非常多的影响,比如数据开发的效率降低(需要核对同名数据不同的加工逻辑)、数据服务的口径问题投诉(业务方提了个指标数据需求,数据开发取出的数据和业务方预期不同)等。
● 解决方案:
1.数据标准体系建设:从零开始建设一套完整的数据标准体系非常不容易,如果没有一款线上工具的支撑,线下工作非常难推进。而像金融、制造这些标准化行业,已经存在非常成熟的国标、行标等文件,如果能在这些标准文件的基础上,结合企业自身的特点做些增改,可大大加快建设进度。
2.数据标准的后向应用:完成数据标准体系建设后,我们可以将数据标准和我们历史积累下来的数据进行映射匹配、质量校验,帮助我们发现哪些数据存在标准化问题,然后对应的进行整改。
3.数据标准的前向应用:将数据标准作为我们数据落地的前置条件,具体则可以将数据标准应用在数据建模、ETL等数据开发过程中,让数据落地时即是标准化的。
03
● 痛点三:缺乏规范的数据模型管理和落地实施方案
在传统的数据开发过程中,数据开发直接通过写SQL的方式进行建模,虽然非常快速,但是给数据治理留下了非常大的隐患。比如数据标准无法起到强约束的作用,就会出现上文中的数据同名不同义问题;比如模型之间的ER关系无法直观体现,极大地降低了数据开发效率。
● 解决方案:
1.标准化数据建模:在模型主题、模型元素的规范约束下,通过零代码、配置化的方式引用数据标准,完成规范的数据模型建设。然后通过可视化配置的方式,配置模型表之间的关联关系,构建数仓中的星型模型/雪花模型。
2.模型实施场景:通过上诉的标准做法虽然可以构建规范的数据模型,但是相比于直接写SQL会牺牲一定的灵活性和效率。基于我们之前的交付经验,大部分客户愿意在中间做出平衡,比如所有数仓正式表需要走规范建模的模式,TMP临时表走自定义SQL模式。
04
● 痛点四:无法高效地监控并提高企业数据质量
当作为数据开发人员都被业务方投诉过数据产出不及时、数据不准确、数据有缺失、数据不一致等问题。如何通过简单的配置,能够让开发人员在业务方使用数据之前发现并解决问题,是数据质量管理的核心诉求。
● 解决方案:
1.质量规则配置:不需要通过SQL代码编写,仅通过简单的模版配置,就能完成一个校验任务的创建。并支持自动调度运维、自动生成分析报告、自动输出问题明细,释放数据开发的生产力。
2.校验目标:校验的目标可以是一张表/一个分区/一个字段,该场景常用于数据开发后,对结果表进行校验。也可以是两张表比较数据一致性,该场景常用于数据同步后,需要对源表和结果表的数据进行比对。还可以是Kafka流式数据,通过微批处理的方式消费校验Topic数据。
05
● 痛点五:无法有效地评估数据价值
相信大部分做过数据管理的人员,都被问过这些问题。这个数据有什么价值?这个数据用的人多吗?这张表占用这么大的存储,历史数据能删吗,删了会有什么影响?每天计算这些数据需要花多少钱?在回答这些问题的时候,很难拿出一些量化的数据,导致数据部门的ROI无法有效衡量。
● 解决方案:
1.数据成本管理:通过统计数据的计算成本、存储成本、带宽成本、人力成本等维度信息,经过相关的公式转化,计算出每张表每日产出数据所需要的费用。
2.数据价值管理:通过统计数据的血缘依赖情况、数据的查询情况、数据服务的调用情况等维度信息,量化指标分析数据活性。例如,对于每天新增存储量庞大但是数据使用和血缘依赖量很小的数据,可以考虑周期清理历史数据;对于每天被大量查询和依赖的数据,优化逻辑代码并提高相应的任务优先级,保障数据的及时产出。
以上只是数据资产管理的部分场景问题和解决方案,在日常数据管理过程中大家也许遇到的问题更多、更复杂,希望该篇文章对企业如何落地数据治理、数据资产管理项目有参考价值。
End