为什么要做数据标准体系

我们为什么要做数据标准体系?
在回答这个问题前,我们需要思考如下问题:

1 思考的问题

(1) 问题1:数据治理是什么?
(2) 问题2:数据治理为什么这么火?
(3) 问题3:数据治理目前业界内的发展趋势是什么?
(4) 问题4:数据治理为什么很难成功?
(5) 问题5:以前为什么很多公司不去做数据治理?现在为什么很多公司开始做数据治理了?
(6) 问题6:我们公司又处于什么段位阶段?
(7) 问题7:我们公司以前做数据治理是怎么做的?有哪些问题?
(8) 问题8:我们公司现在基于标准体系做数据治理是怎么做的?准备怎么做?已经做了哪些工作?还有哪些事情没开始?

(9) 问题9:数据标准体系、数据治理、数仓三者是什么关系?
(备注:问题6、问题7、问题8结合当前自己所在公司进行表述,本文不做说明,只把当时解决问题的思路框架分享给大家,具体内容自己根据自己公司进行扩充。)

2 问题的思考

二级标题 问题1:数据治理是什么?

目前业界并没有对其概念的统一标准定义,我们可以这么认为,数据治理从本质上看就是对一个机构(企业或政府部门)的数据从收集融合到分析管理和利用进行评估、指导和监督(EDM)的过程, 通过提供不断创新的数据服务, 为企业创造价值。
DGI(Data Governance Institute,数据治理研究所)认为,企业不仅需要管理数据的系统,更需要一个完整的规则系统以及规章流程。数据治理基本上涵盖了企业所有与数据有关的内容,因此在整个企业范围内,包括工作流程、涉及人员和使用的技术等等,都需要经过仔细考量,以保证数据的可用性、一致性、完整性、合规性、和安全性,确保在整个数据生命周期中,都具有较高的数据质量。
总体来说,数据治理的目标就是提高数据质量,将数据价值最大化。数据治理是企业实现数字战略的基础,它是一个管理体系,包括组织、制度、流程、工具等。

二级标题 问题2:数据治理为什么这么火?

IT技术从60年代起,不论软件还是硬件技术都发生了翻天地覆的变化,数据方面的技术和应用也在不断深化。从最早的数据应用、存储到现在的数据分析、管理、统计、整合、挖掘等。那有没有思考过数据治理这几年为什么会这么火?
前几年很多企业都在做大数据应用,但是传统企业几乎都是很惨烈的失败了,这要源于参差不齐的数据质量。但是如何解决呢?方式方法就是做数据治理。由此,很多企业都在做数据治理。
看当下,数据爆发式的增长形式,数据价值发挥越来越显得紧迫和重要,甚至可以说未来市场的竞争就是数据价值的竞争。所以只有建立完整的数据治理体系,才能保障数据内容的质量,才能真正有效的挖掘数据价值,提升竞争力。

二级标题 问题3:数据治理目前业界内的发展趋势是什么?

时间轴上来看,十几年前,很多人认为数据治理太虚太遥远。随着业内对数据的理解越来越深刻,尤其是在2016年以后,行业内对数据治理进入认知阶段,并逐步探索符合自己行业特征的数据治理方法。而从2016-2018年,数据治理就进入了高速发展的阶段。通过这个阶段高速发展之后,行业对数据治理和落地方式有了全新的认识,各企业也在不停地探索出一套适配自己企业的数据治理方案。
在业界,数据治理的发展趋势和规律如下:
(1) 认知阶段:
a. 了解数据治理的概念,对数据资产有初步的感知
b. 学习数据资产中包含的技术要素及内容
c. 思考数据资产化带来的价值及具体实施方案
(2) 实验阶段(2016-2018年)
a. 设立小型项目,进行数据资产化试点,评定项目价值
b. 大数据时代的到来使得数据的重要性被重视,在数据应用过程中发现数据质量问题比较多
c. 通过数据治理提高质量
(3) 发展阶段(2018-2020年)
a. 较大范围启动数据资产化项目,设计数据资产产物
b. 采购工具、设置岗位、构建流程等,应用范围逐步扩大
(4) 成熟阶段(2020-2022年)
a. 数据治理体系比较完善
b. 将数据治理体系引入系统开发中,严格遵循数据治理体系,并构建自动化校验体系
c. 在设计、开发、测试等阶段保证数据质量
(5) 展望阶段(2022年以后)
a. 数据治理体系智能化。将数据治理体系和当下蓬勃发展的ai等技术结合,使得数据治理整个体系智能化。
b. 数据治理智能化促使基础代码研发智能化,数据治理体系和算法结合的积累,使得在算法研究领域更为深入,终极算法时代到来。

二级标题 问题4:数据治理为什么很难成功?

数据治理发展多年,为何还不成功?主要原因是实践者偏向业务数据治理,偏向业务数据治理大多是类似烟囱式的开发模式,并没有对基于业务去对技术元数据做很好的设计和规划。为何不去做呢?原因是太难了。
难在何处?有些人不知从何下手如何去做,有些人知道一些但没机会尝试,也有开始探索试验的,但只要开始做,就会拿出一套标准体系框架,然后再要求所有相关的研发团队(包括业务研发团队)去按照标准进行开发,这又是一件几乎不可能的事情。首先是投入的成本,不论是人力还是资金都需要大量投入;其次是认知程度和认可程度,很多开发人员是面向交付开发,认为把每次的需求做完就可以了,不了解数据治理的流程及意义,浅层的认知导致对做数据治理这件事情的不认可,最终配合度不高,效果不尽如人意。时间久了,没有成果,很多领导和同事也会对失去信心。
我们目前就面临着这样的困局,为了重拾信心,就可能会造出很多高大上的名词,如:数据资产化、数据XX化,其实不论叫什么名字,本质上都是在做一样的事情——做数据、做数据治理。只是在做的过程中因工具和方法的不同,从而体现出的效率、效果不同。最后能够在实际生产环境中真正落地和运用的,且可发挥出整体效应的,还是需要标准体系的支撑,这个标准体系需要基于业务和应用出发,去构建核心标准体系模型。

二级标题 问题5:以前为什么很多公司不去做数据治理?现在为什么很多公司开始做数据治理了?

(1) 以前为什么很多公司不去做数据治理呢?
数据对企业来说极为重要,但是为什么很多公司不去做数据治理呢?如果从商业角度分析,投入产出比问题,做数据需要投入大量的时间和人力财力,才有可能产出效能。如果从做事情的角度分析,数据治理需要反复校验修订标准、修订工具、修订模型,需要很长时间和行业积累,然后形成行业特色的数据治理经验和方法论。如果从风险角度分析,做数据因为周期漫长、受到外界变化影响因素很多、不同领导及不同同事的想法等都有可能对做数据的进程产生影响。
(2) 现在为什么很多公司开始做数据治理了呢?
可以参考前面的问题2,额外进行两点补充:
a. 有效的数据治理可以提高工作效率。例如企业员工在系统中记录各个部门的销售数据、财务数据等等,那么在数据治理中模型会对其进行统一且标准化构建,各部授权部门可快速获取到所需要的信息,不需要从底层数据进行提取转换等工作。工作效率的提高对于企业来讲就是节约了时间成本。
b.有效的数据治理降低错误数据风险。一旦数据出现错误,那么排查起来工作量很大,且不容易发现错误。一旦企业有了较完善的数据治理系统,那么数据汇总、溯源将会更直观更快速,可及时处理数据错误问题,降低数据错误带来的风险和损失。
综上所述,有效的数据治理可以节省人工成本和时间成本。并且良好的数据治理可以使企业数据更加清晰、标准、明确,可以让企业通过数据做出准确的规划及调整。

二级标题 问题9:数据标准体系、数据治理、数仓三者是什么关系?

数据治理是做数据、做好数据,最终促进业务发展。
数据标准体系是做数据治理的数据模型依据、数据标准参考,是构建数仓的基础。没有标准,我们就解决不了已经存在的问题(参见问题6具体问题描述),这也是需要做数据标准体系的原因。

你可能感兴趣的:(数据标准体系,数据治理,数仓)