数据质量的四大特性

--[@more@] 关于数据质量的问题我最近也研究了几个月,我来谈谈我自己的体会吧 首先出现报表数据在不同版本出现较大的问题这是很多原因,不管谁先谁后我们假设有两张报表,A和B,A和B报表上出现的总销售额不一样,由一下几种情况 1: 销售额的统计范围不一,如时间,区域或者产品 2: 定义不一致,比如是否扣税,汇率,结算方式(如应付款和收货款),或者财务的款项统计,常见的有自然年月日的统计和财务计算年月的统计 3:数据的维度统计不一致,如订单的状态,是否有取消的,是否计算冲账的 4:数据来源不一致,如从市场部门获得的数据源和交易系统获得的数据源。 5:各地区对于统计数据本身的定义就不明确,比如销售额的销售调整部分,是否也应计入销售额,或者将此类划入日常开销成本中。 以上我要说的就是

数据的业务定义是数据质量评估的第一步

关于数据的质量部分,不同的标准,评估的结果也不一样,数据有四大特性,准确性,一致性,完整性和及时性 至于很多朋友说还有可靠性,有效性,等等,我想都可以算作是准确性的一部分 准确性表现为能正确的反应事实 不言而喻,四大特性的优先级是准确性,一致性,完整性以及及时性 准确性首先需要标准,就想法律和打官司一样,标准的界定是一个主要的环节,我们可以用When,Where,Who,which来清楚的界定,这样我们统计的时候就有依据,如果都安装这样的范围来统计,就是做100张报表,对于总数的统计也不会有问题 一致性的表现其实就是对数据在不同阶段,不同时间,不同部门和区域的定义是否一致,举一个简单的例子,对于客户的性别,有的用男&女,有的用1&0,又有的F&M,但是突然出现空,2,D,P等等,这能说数据不准确吗,这只能算作是数据不够一致,我们整合起来也不是太复杂,映射清楚就可以了,而没有约束,出现额外值的情况,能改我们就改,不能改的,我们可以讲数据的意外值分为意外值和空值两种,意外值表示填错了,空值表示没有填 完整性是对企业数据实体的完整说明,比如客户的附带属性是性别,姓名,年龄,地址,规模,平均年消费次数等等等,这同样可以用数据统计的方法说明数据是否完整。 及时性及不言而喻了 对此我的意思是做数据评估,如果数据的准确性不能i达到要求,数据质量就直接不合格,数据的准确性的判断和修正时最不需要技术含量的,相对而言。 对于完整性和一致性,可以讲实体的不同附属信息设置为不同的指标,并且按照应用频率设置权重 最常用和权威的方式可以使用6Sigma的方法做评估 Regards Solo Zhu Blog:http://bidwhome.itpub.net

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/7600305/viewspace-1028271/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/7600305/viewspace-1028271/

你可能感兴趣的:(数据质量的四大特性)