目录
一、分值分布
二、重点知识梳理
1、引言
1.1 业务驱动因素
1.2 目标和原则
1.3 基本概念
2、活动
2.1 定义高质量数据
2.2 定义数据质量战略
2.3 识别关键数据和业务规则
2.4 执行初始数据质量评估
2.5 识别改进方向并确定优先排序
2.6 定义数据质量改进目标
2.7 开发和部署数据质量操作
3、工具
4、方法
4.1 预防措施
4.2 纠正措施
4.3 质量检查和审核代码模块
4.4 有效的数据质量指标
4.5 统计过程控制 SPC
4.6 根本原因分析
5、实施指南
5.1 就绪评估/风险评估
5.2 组织与文化变革
6、数据质量和数据治理
6.1 数据质量制度
6.2 度量指标
CDGA:10分(10单选)
CDGP:10分(论述题)
考点:
业务驱动、目标和原则;
基本概念;
数据质量活动、技术;
数据质量评估指标;
语境关系图:(活动1应为“定义高质量数据”)
实现数据价值的前提是数据本身是可靠和可信的,换句话说,数据应是高质量的。
没有一个组织拥有完美的业务流程、完美的技术流程或完美的数据管理实践,所有组织都会遇到与数据质量相关的问题。相比那些不开展数据质量管理的组织,实施正式数据质量管理的组织碰到的问题会更少。
导致数据质量低下的因素:
数据质量管理应有的认知:管理数据质量需要跨职能的承诺和协调。数据质量管理不是一个项目,不是干一票完完事,而是一项持续性工作。长期成功取决于组织文化的改变及质量观念的建立。高质量数据本身并不是目的,它只是组织获取成功的一种手段。
业务驱动因素:
低质量数据造成的后果:
目标:
原则:
数据质量:“数据质量”一词既指高质量数据的相关特征,也指用于衡量或改进数据质量的过程。它取决于使用数据的场景和数据消费者的需求。与质量相关的期望并不总是已知的。通常客户可能不清楚自身的质量期望,数据管理人员也不会询问
关键数据:
数据质量维度:数据质量维度是数据的某个可测量的特性。提供了定义数据质量要求的一组词汇,通过这些维度定义可以评估数据质量。
数据质量和元数据:数据质量为了满足预期,而元数据是阐明期望的主要手段。
数据质量ISO标准:ISO 8000尚在开发完善中,这一标准的建立是为了使复杂数据能够以与应用无关的形式进行交换。标准将质量数据定义为“符合规定要求的可移植数据”。
数据质量改进生命周期:
数据质量业务规则类型:业务规则描述业务应该如何在内部运行,以便成功地与外部世界保持一致。数据质量业务规则描述了组织内有用数据和可用数据的存在形式。常见的业务规则类型:
数据质量问题的常见原因:质量问题在数据生命周期的任何节点都可能出现。
数据剖析(Data Profiling):一种用于检查数据和评估质量的数据分析形式。数据剖析使用统计技术来发现数据集合的真实结构、内容和质量。剖析还包括统计信息识别、跨列分析、表间分析。解决问题还需要其它形式的分析。
虽然剖析是理解数据的有效方法,但只是提高数据质量的第一步,它使组织能够识别潜在的问题。解决问题还需要其他形式的分析.包括业务流程分析、数据血缘分析和更深入的数据分析,这些分析有助于隔离出问题的根本原因
数据质量和数据处理:虽然数据质量改进工作的重点是防止错误,但也可以通过某种形式的数据处理来提升数据。
提高数据质量要有一定的战略,数据质量优先级必须与业务战略一致。
数据质量改进计划通常从主数据开始。定好关键数据,再识别能描述或暗示有关数据质量特征要求的业务规则。数据质量度量围绕数据是否被适当使用进行。通过质量指标描述规则(字段X是强制的,必须有值)和结果(但实际上该字段3%记录无值,完整率仅为97%)。
执行初始数据质量评估的目标是了解数据,以便定义可操作的改进计划。
需要识别潜在的改进措施,并确定其优先顺序。识别可以通过对较大数据集进行全面的数据分析来完成,以了解现有问题的广度;也可以通过其他方式实现,如就数据的影响问题与利益相关方进行沟通,并跟踪分析这些问题的业务影响。讨论确定顺序。
利用这些信息确定补救和改进工作的优先级。大规模的数据剖析工作,仍应集中在最关键的数据上。确定影响需要数据链上的利益相关方的介入。
数据质量提升从简单补救到根本原因改进。补救和改进计划可以快速解决问题到长期的战略性变化。重点应是解决问题的根本原因,并建立问题的预防机制。
要设定具体的、可实现的目标来应对。改善数据必须有积极的投资回报,没有人关心字段完整性的级别,除非有业务影响。
2.7.1 管理数据质量规则:
2.7.2 测量和监控数据质量:
业务数据质量管理过程取决于测量和监控数据质量的能力。
应根据数据评估和根本原因分析的结果制定测量方法。应将从过去的问题中获得的知识应用于风险管理。测量结果可以分为两个层次进行描述:执行单个规则相关的详细信息和规则汇总的总体结果。
数据质量规则为数据质量的操作管理提供了基础。通过将控制和度量过程纳入信息处理流程进行持续的监控,可以通过流程或批处理的方式对数据质量规则的一致性进行自动监控,在三个粒度级别上进行度量:数据元素值、数据实例或记录、数据集。
2.7.3 制定管理数据问题的操作过程:
2.7.4 制定数据质量服务水平协议:
SLA 规定了组织对每个系统中数据质量问题进行响应和补救的期望。
2.7.5 编写数据质量报告
详见语境关系图
创建高质量数据的最佳方法是防止低质量数据进入组织。预防措施可以阻止已知错误的发生在事后对数据进行检查并不能提高其质量。
问题发生并被检测到之后,实施纠正措施。数据质量问题应系统地、从根本上解决,最大限度地降低纠正措施的成本和风险。“就地解决问题”是数据质量管理中的最佳实践,这通常意味着纠正措施应包括防止产生质量问题的原因再次发生。
创建可共享、可链接和可重用的代码模块,开发人员可以从存储库中拿到它们,重复执行数据质量检查和审计过程,可简化维护过和防止数据质量问题。
通过分析过程输入、输出和步骤的变化测量值来管理过程的方法。SPC基于这样一个假设:当一个具有一致输入的过程被一致执行时,它将产生一致的输出。它使用集中趋势和围绕中心值可变性的度量来确定过程中的偏差公差。
组织采用数据质量的实践准备情况,可以通过以下特征进行评估:
数据质量不是通过一些工具和口号就能改进的,而是要通过帮助员工和利益相关方树立不断行动的思维观念,同时要始终考虑数据质量和业务与客户的需求来改进。让一个组织认真对待数据质量,通常需要进行重大的文化变革。这种变革需要领导者的远见和领导力(一把手工程)。
培训应着重于:
数据质量工作作为数据治理计划的组成部分时,效果更好
将数据质量纳入整体治理,其它利益方可以:
数据质量和数据治理。治理组织可以通过以下方式加快数据质量方案的工作:
数据质量工作应有匹配的数据治理制度的支持。
数据质量制度内容应包括:
数据质量团队的大部分工作将集中于质量的度量和报告上。
数据质量的高阶指标包括: