大家好,我是大家的怪力少女——赵壮实。
经过了近2个多月的学习,我们终于来到最后一篇:数据治理。
数据治理是一个大话题,在数据界会是一个越来越的话题。不信,请看百度指数。
我对比了近一年来,全国全端关于「数据治理」和「数据分析」两个关键词的搜索情况,我们可以明显发现,在数据分析如此「家常化」的今天,数据治理也在慢慢出圈了。
壮实预测,未来市场上将会有一大波围绕数据治理的RD、PM、OP的岗位供给数据人才。(有点dy张诗童的味道了。。)
为什么这么说呢。这个很好理解,在早期互联网迅猛发展之时,大家一股脑儿地注重速度,注重数据分析;但是当大家发展地差不多的时候,就会比谁的数据更安全,谁更效率。
好嘞,话不多说,我们来谈谈今天的议题——数据治理。
如果你感兴趣的话,没准能作为一个新的职业方向。
01 什么是数据治理?
数据治理定义:
Data governance is a data management concept concerning the capability that enables an organization to ensure that high data quality exists throughout the complete lifecycle of the data, and data controls are implemented that support business objectives. The key focus areas of data governance include availability, usability, consistency, data integrity and data security and includes establishing processes to ensure effective data management throughout the enterprise such as accountability for the adverse effects of poor data quality and ensuring that the data which an enterprise has can be used by the entire organization. —— 维基百科
数据治理是对数据资产管理行使权力和控制的活动集合。—— 国际数据管理协会(DAMA)
从上面的定义,我们可以得到两个比较关键的信息:
数据治理服务于组织。
数据治理表现为管控数据生命周期中的数据高质量,包括:数据可获得、数据可使用、数据一致性、数据安全。
好的,说完定义,我们来看看现实:
从上图可以看到,数据治理可以包括产品、技术侧的治理,也可以包括数据安全。
从壮实的角度来说,数据治理是一个很大的词语,简单来说,可以理解为:一切为提高生命周期内,数据质量的解决方案。(准度、精度、量度)
目前,无论是在数据产品侧还是在数据技术侧都是探索阶段,就产品来说,如图所示,产品侧比较常见是以下三种:
1.元数据管理:比如管理了多少数据资产(任务、维度、指标、报表),什么来源、什么主题、来自于什么数据源,流向了什么数据应用。
2.数据资产管理:有价值的元数据可以变为资产(热度),数据资产用什么方式对上层应用提供服务,这些对外服务是如何管控的,谁使用了数据,用了多少数据,是否应该用图形化的方式进行统计和展现。
3.数据资产治理:
无价值数据展示。这时候就要盘一盘,发现了多少条问题数据,处理了多少条问题数据,是否应该有一个不断更新的统计数字来表示。
治理工具。如使用什么样子的工具有助于发现问题、解决问题 。
治理排名工具。如数据质量问题逐月减少的趋势,是否应该用趋势图展现出来。数据质量问题根据部门、系统的排名,是否应该加在数据质量报告中,提供给决策层,帮助客户进行绩效考核。
总之,壮实认为,不要为了治理而治理。我们做数据治理工作,一定要从需求&痛点开始,就想办法让用户直观地看到成果,体验收益。(注意是“体验收益”,不是“感知收益”。)
02 我们在做数据治理的时候,我们在想什么?
为什么商业需要数据?是用数据评估任何动作的效果。所以,指标的源头实际是业务同学定义的。但是背后有决定指标定义的商分同学、产生数据的研发同学、服务任何使用数据的数据产品同学。
所以,数据准不准?数据谁来用?谁是数据的最终受益人——业务同学。
两点结论:
业务同学学会数据分析,将会大大提高企业效率。
指标/维度的定义,需要从业务同学中来,再到业务同学中去。
脱离指标维度说数据技术的人,在一定程度上是耍流氓。。。。壮实,今天想谈一谈,业务中如何对齐指标维度。业务对齐指标维度,在数据角度可以从底层和应用层有不同的解法,应用层偏重于指标/维度如何梳理/打通/维护;底层偏重于从分层建模的角度解决。
01 应用层角度
下面的图,就是阿里老大哥,根据三种表+业务指标划分,提供的一种指标定义和生产的方案。
这个还是行业老大哥阿里的一个图:
这里要理解1对概念。
原子指标:基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名词,如支付金额
派生指标:一个原子指标+若干修饰词+时间周期。如最近1天海外买家支付金额。阿里还把派生指标分为三类,但是去别的公司,可能不这么定义。。。
事务型指标:是指对业务活动进行衡量的指标。如新发商品数,重发商品数。
存量型指标:是指对实体对象(商品,会员等)某些状态的统计。例如商品总数,注册会员总数
复合型指标:是在事务型指标和存量型指标基础上复合而成。如UV-下单买家转换率。
关于表可以回去翻一下壮实的第一篇和第二篇文章哦~
02 底层角度
以下是阿里老大哥的数据层次图:
因为这里是研发的重点,壮实简要说模型设计原则和流程两点:
分层模型设计原则
1. 高内聚和低耦合,业务相近或相关,粒度相同的数据设计为一个逻辑或者无力模型。将高概率同时访问的数据放在一起。
2. 核心模型与扩展模型分离,核心模型包含常用核心业务的字段,扩展模型包括一些特定的或者少量使用的应用字段。
3. 公共处理逻辑下沉及单一,越是公共数据越要在数据底层封装,避免暴露其处理逻辑,公共逻辑不要多出存在。
4. 成本和性能平衡,适当的数据冗余,但不能多。
5. 命名清晰,可理解。
实施工作流
1.充分的业务调研和需求分析
2.进行数据总体架构设计,根据主题域对数据进行划分,按照维度建模理论,抽象出业务过程和维度
3.抽象整理出相关指标体系
4.使用相关工具或按照相关规范完成指标规范定义和模型设计
5.代码开发和运维
好了,今天的数据治理就到这里了,因为数据治理是解决实际问题,市面上的解决方案比较少见,同学们感兴趣,可以多多探索~
但是,解决从底层到业务同学的数据指标对齐问题,是一个长长久久、长治久安的问题,也是数据治理的一个很重点的问题。
如果你对数据治理感兴趣,可以进行深入的学习,抓住这次治理的风口哦~
03 《壮实学数据技术》后记
2021年年初,《壮实学数据技术》终于迎来了尾声。
这是壮实对于过去一年工作收获的总结,当然,由于种种原因,里面只有工作的思想,没有工作的任何内容,嘿嘿~
如果你通过壮实的文字,产生对底层数据产品及数据pm产生兴趣,可以参与其中。
在《2001太空漫游》电影中,描绘了这样的场景:
“一群草食人猿正在广袤无际的非洲沙漠中觅食,当他们从睡梦中醒来,发现一块巨大的黑色石板平地而起,他们欢呼雀跃起来,在巨石的指引下,他们学会将骨头当作工具和武器,开始猎食动物,并收复了同类抢占的失地,随着他们的首领将骨头抛向空中,画面切换至数百万年后的未来。”
念头只是一瞬间,可能谁也没有发现(庞贝村下的人亦是如此),此刻正是黑色石板平地之时。
一个数据人的自留地是一个助力数据人成长的大家庭,帮助对数据感兴趣的伙伴们明确学习方向、精准提升技能。关注我,带你探索数据的神奇奥秘
1、回“数据产品”,获取<大厂数据产品面试题>
2、回“数据中台”,获取<大厂数据中台资料>
3、回“商业分析”,获取<大厂商业分析面试题>;
4、回“交个朋友”,进交流群,认识更多的数据小伙伴。