数据质量管理模型

:[@more@]

问题:
目前企业存在多地区,多产品,多业务,多系统的环境,在数据信息,报表统计,业务分析和业务元定义上存在数据不一致,不完整,不统一以及不真实和不及时的情况,­这样让业务人员,管理者,信息使用者存在误解,导致决策出现偏差,同时低下的数据质量往往造成开发出来的系统与用户的预期大相径庭,而在维护阶段,也出现维护成­本不断上升,工作量加大,系统难以扩展


成果:
1:在源数据剖析,数据质量元数据管理,数据验证和数据修补上给出指导建议和标准的解决方案
2:源数据剖析系统原型
3:数据验证引擎系统原型
4:数据修补引擎系统原型
5:数据质量分析报表原型


场景:
1:BI系统或者数据管理系统可以根据数据质量管理模型构建系统或者提供数据管理模型接口
2:能根据产生的质量分析结果监控和改进数据质量
3:用闭环管理的思想指导数据质量改进过程
4:决策者能知道数据的可用性和可信性的程度
5:减轻IT工作者在后期维护的成本和工作量
6:增加数据的验证体系和修补体系,按优先级顺序完善数据管理制度


思路:
1:确定数据本身的数据质量和源数据的数据模型
2:建立源数据和源数据模型,管理等元数据
3:定义数据身份,数据粒度和数据生命周期,标注主数据和辅助数据
4:分析源数据质量,对比出数据参照优先级,数据校验标准和修补更新标准
5:依据业务规则和数据参照优先级,确定数据校验规则
6:依照数据校验标准和修补更新标准,确立数据修补优先级和修补标准


这个提案时我提出的,研究成果其实是
1:在源数据剖析,数据质量元数据管理,数据验证和数据修补上给出指导建议和标准的解决方案
2:源数据剖析系统原型
3:数据验证引擎系统原型
4:数据修补引擎系统原型
5:数据质量分析报表原型

在研究这个可提前,我们现需要剖析现有的关于数据质量的方方面面,特别是对数据质量分析前的定义
主要有数据语义的一致性,数据元的完整性,数据体的唯一性,数据描述的准确性四个方面的定义
以此为依据,决定数据质量存在的问题
1:在源数据剖析,数据质量元数据管理,数据验证和数据修补上给出指导建议和标准的解决方案
A:源数据剖析的深度和业务层次,来定义数据语义的一致性,将企业相关数据元就行分析,看看各系统间数据的不同部门对数据的定义,这是确定数据含义是否
一致。


2:源数据剖析系统原型
A:原系统的数据剖析是对分析各个原系统的数据存储的结构,包括表数据,视图数据,Excel数据等以及计算公式,比较方式,查看数据方式,都数据剖析
的范围,这需要一个比较可行的方式,对于数据库中的内容,需要有相应的导出完整数据字典的结构过程,能在Excel中修改,也能导入到制定的表中进行保
存,同时还能定期检查表结构是否发生变化。


3:数据验证引擎系统原型
A:这里的验证有几种,数据结构验证,还有数据一致性,完整性,唯一性和准确性的验证,每一种验证就需要建立固定的可变化的验证规则,而且验证规则,验
证体,验证结构都需要记录日志和验证结果,同时还需要提供接口给UI,最好能做到让业务人员自己更新验证规则,自己查看验证过程和结果,为数据修补邀请
提供接口


4:数据修补引擎系统原型
A:这个修补邀请就是针对不同类型的数据验证规则验证的数据进行更新,有指定规则自动更新的,有人工干预修改的,主要是能有UI接口,提供修改功能和修
改策略,以及记录修改日志和标记。便于和正常数据区分


5:数据质量分析报表原型
A:这里的分析报表,可以利用6Sigma的原理,对数据质量情况进行分析,可以预先制定标准和参考依据,对数据质量进行等级划分。方便企业制定数据质
量管理制度。




数据质量这个提案我认为是比较清楚,如何提高数据质量,这也是已经构建数据仓库的企业面临的重大难题。请有兴趣的朋友跟solozhu联系,看能不能把这当作t­tnn研究院的第一个项目。
但在成果方面,有一个建议——将质量管理的标准作为最核心的成果,而将关于内部质量处理的东西放在次要地位。


因为对于最终用户来说,他们关注的问题从粗到细是:
1、如何提高数据的质量?
2、如何衡量数据的质量?
3、如要要求数据流水线各个环节保证质量?



> 数据质量这个提案我认为是比较清楚,如何提高数据质量,这也是已经构建数据仓库的企业面临的重大难题。请有兴趣的朋友跟solozhu联系,看能不能把这当作t­-tnn研究院的第一个项目。
> 但在成果方面,有一个建议----将质量管理的标准作为最核心的成果,而将关于内部质量处理的东西放在次要地位。

> 因为对于最终用户来说,他们关注的问题从粗到细是:
> 1、如何提高数据的质量?
> 2、如何衡量数据的质量?
> 3、如要要求数据流水线各个环节保证质量?


发件人:terrysong

思路不错,我有几点建议:
1、数据验证引擎系统模型,这个是必须要做的,但在实际操作中是否可以提供"修改功能",因为我们是在两个不同的系统内,对于人工干预的情况,我觉得就
提供脏数据给业务人员就可以了,这属于系统边界之外的东西。
2、上面的方案侧重于针对业务系统而言的数据质量问题,而忽视了在整个ETL过程中也存在数据质量问题,监控整个ETL流程的数据质量也是至关重要
的。
3、我认为最终是不是可以做一个KPI指标对比的功能,也就是用业务系统中计算出来的指标值和数据仓库里计算的指标值来对比,以确保整个数据抽取过程的
完整性和准确性,这点大家可以讨论一下。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/7600305/viewspace-1020589/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/7600305/viewspace-1020589/

你可能感兴趣的:(数据质量管理模型)