DAMA-DMBOK2重点知识整理CDGA/CDGP——第13章 数据质量

目录

一、分值分布

二、重点知识梳理

1、引言

1.1 业务驱动因素

1.2 目标和原则

1.3 基本概念

2、活动

2.1 定义高质量数据

2.2 定义数据质量战略

2.3 识别关键数据和业务规则

2.4 执行初始数据质量评估

2.5 识别改进方向并确定优先排序

2.6 定义数据质量改进目标

2.7 开发和部署数据质量操作

3、工具

4、方法

4.1 预防措施

4.2 纠正措施

4.3 质量检查和审核代码模块

4.4 有效的数据质量指标

4.5 统计过程控制 SPC

4.6 根本原因分析

5、实施指南

5.1 就绪评估/风险评估

5.2 组织与文化变革

6、数据质量和数据治理

6.1 数据质量制度

6.2 度量指标


一、分值分布

        CDGA:10分(10单选)

        CDGP:10分(论述题)

                考点:

                        业务驱动、目标和原则;

                        基本概念;

                        数据质量活动、技术;

                        数据质量评估指标;

二、重点知识梳理

1、引言

语境关系图:(活动1应为“定义高质量数据”

DAMA-DMBOK2重点知识整理CDGA/CDGP——第13章 数据质量_第1张图片

        实现数据价值的前提是数据本身是可靠和可信的,换句话说,数据应是高质量的。

        没有一个组织拥有完美的业务流程、完美的技术流程或完美的数据管理实践,所有组织都会遇到与数据质量相关的问题。相比那些不开展数据质量管理的组织,实施正式数据质量管理的组织碰到的问题会更少。

导致数据质量低下的因素

  1. 组织缺乏对低质量数据影响的理解
  2. 缺乏规划
  3. 孤岛式系统设计
  4. 不一致的开发过程
  5. 不完整的文档
  6. 缺乏标准或缺乏治理等

数据质量管理应有的认知:管理数据质量需要跨职能的承诺和协调。数据质量管理不是一个项目,不是干一票完完事,而是一项持续性工作。长期成功取决于组织文化的改变及质量观念的建立。高质量数据本身并不是目的,它只是组织获取成功的一种手段。

1.1 业务驱动因素

业务驱动因素

  • 1)提高组织数据价值和数据利用的机会。
  • 2)降低低质量数据导致的风险和成本。
  • 3)提高组织效率和生产力。
  • 4)保护和提高组织的声誉。

低质量数据造成的后果

  • 1)无法正确开具发票。
  • 2)增加客服电话量,降低解决问题的能力。
  • 3)因错失商业机会造成收入损失。
  • 4)影响并购后的整合进展。
  • 5)增加受欺诈的风险。
  • 6)由错误数据驱动的错误业务决策造成损失。
  • 7)因缺乏良好信誉而导致业务损失。

1.2 目标和原则

目标

  • 1)根据数据消费者的需求,开发一种受管理的方法,使数据适合要求。
  • 2)定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分。
  • 3)定义和实施测量、监控和报告数据质量水平的过程

原则

  • 1)重要性。根据数据的重要性以及数据不正确时的风险水平来制定改进的优先顺序。
  • 2)全生命周期管理。数据质量管理应覆盖从创建或采购直至处置的数据全生命周期,。
  • 3)预防。重点应放在预防数据错误和降低数据可用性等。
  • 4)根因修正。需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解决。
  • 5)治理。数据治理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持受治理的数据环境。
  • 6)标准驱动。数据生命周期中的所有利益相关方都会有数据质量要求。
  • 7)客观测量和透明度。数据质量水平需要得到客观、一致的测量。
  • 8)嵌入业务流程。业务流程所有者对通过其流程生成的数据质量负责,他们必须在其流程中实施数据质量标准。
  • 9)系统强制执行。系统所有者必须让系统强制执行数据质量要求。
  • 10)与服务水平关联。数据质量报告和问题管理应纳入服务水平协议(SLA)。

1.3 基本概念

数据质量:“数据质量”一词既指高质量数据的相关特征,也指用于衡量或改进数据质量的过程。它取决于使用数据的场景和数据消费者的需求。与质量相关的期望并不总是已知的。通常客户可能不清楚自身的质量期望,数据管理人员也不会询问

关键数据

  • 改进的重点:数据质量管理的一个原则是将改进的重点集中在对组织及其客户最重要的数据上,这样做可以明确项目范围,并使其能够对业务需求产生直接的、可测量的影响。
  • 评估关键数据的要素:
    • 1)监管报告
    • 2)财务报告
    • 3)商业政策
    • 4)持续经营
    • 5)商业战略,尤其是差异化竞争战略

数据质量维度:数据质量维度是数据的某个可测量的特性。提供了定义数据质量要求的一组词汇,通过这些维度定义可以评估数据质量。

  • Strong-Wang 框架(1996)侧重于数据消费者对数据的看法,描述了数据质量的4大类15个指标:
    • (1)内在数据质量
      • 1)准确性。
      • 2)客观性。
      • 3)可信度。
      • 4)信誉度。
    • (2)场景数据质量
      • 1)增值性。
      • 2)关联性。
      • 3)及时性。
      • 4)完整性。
      • 5)适量性。
    • (3)表达数据质量
      • 1)可解释性。
      • 2)易理解性。
      • 3)表达一致性。
      • 4)简洁性。
    • (4)访问数据质量
      • 1)可访问性。
      • 2)访问安全性。
  • Thomas Redman在《在信息时代的数据质量》将一个数据项定义为“可表示的三元组”:一个实体属性域与值的集合。维度可以与数据的任何组成部分相关联:模型(实体和属性)及其值。定义了一类用于记录数据项规则的表达维度。在三个类别(数据模型、数据值、数据表达)中,描述了20个维度:
    • (1)数据模型
      • 1)内容。
        • ①数据关联性。
        • ②获取价值的能力。
        • ③定义清晰性。
      • 2)详细程度。
        • ①特征描述颗粒度。 
    • (2)属性域的精准度 
      • 1)构成。
        • ①自然性。每个属性在现实世界中应该有一个简单的对应物,且每个属性都应承载一个关于实体的单一事实。
        • ②可识别性。每个实体都应能与其他实体区分开来。
        • ③同一性。
        • ④最小必要冗余性。 
      • 2)一致性。
        • ①模型各组成部分的语义一致性。
        • ②跨实体类型属性的结构一致性。 
      • 3)应变性。
        • ①健壮性。
        • ②灵活性。
      • 4)数据值。
        • ①准确性。
        • ②完备性。
        • ③时效性(Currency)。
        • ④一致性。
      • 5)数据表达。
        • ①适当性。
        • ②可解释性。
        • ③可移植性。
        • ④格式精确性。
        • ⑤格式灵活性。
        • ⑥表达空值的能力。
        • ⑦有效利用存储。
        • ⑧数据的物理实例与其格式一致。
  • Larry Englist《改善数据仓库和业务信息质量》提出两在类别:固有特征和实用特征。固有特征与数据使用无关,实用特征是动态的,与数据表达相关,其质量价值依赖数据的用途而不同。
    • (1)固有质量特征
      • 1)定义的一致性。
      • 2)值域的完备性。
      • 3)有效性或业务规则一致性。
      • 4)数据源的准确性。
      • 5)反映现实的准确性。
      • 6)精确性。
      • 7)非冗余性。
      • 8)冗余或分布数据的等效性。
      • 9)冗余或分布数据的并发性。 
    • (2)实用质量特征
      • 1)可访问性。
      • 2)及时性。
      • 3)语境清晰性。
      • 4)可用性。
      • 5)多源数据的可整合性。
      • 6)适当性或事实完整性。
  • DAMA UK描述了数据质量
    • DAMA UK的6个核心维度:
      • 1)完备性。存储数据量与潜在数据量的百分比。
      • 2)唯一性。在满足对象识别的基础上不应多次记录实体实例(事物)。
      • 3)及时性。数据从要求的时间点起代表现实的程度。
      • 4)有效性。如数据符合其定义的语法(格式、类型、范围),则数据有效。
      • 5)准确性。数据正确描述所描述的“真实世界”对象或事件的程度。
      • 6)一致性。比较事物多种表述与定义的差异。
    • DAMA UK白皮书描述的对质量有影响的其他特征:
      • 1)可用性(Usability)
      • 2)时间问题(Timing Issues)(超出时效性本身)。
      • 3)灵活性(Flexibility)。
      • 4)置信度(Confidence)。
      • 5)价值(Value)。

数据质量和元数据:数据质量为了满足预期,而元数据是阐明期望的主要手段。

数据质量ISO标准:ISO 8000尚在开发完善中,这一标准的建立是为了使复杂数据能够以与应用无关的形式进行交换。标准将质量数据定义为“符合规定要求的可移植数据”。

  • ISO 8000的目的是帮助组织定义什么是符合质量的数据、什么是不符合质量的数据,使他们能够使用标准约束要求符合质量的数据,并检核他们已经收到了符合同一质量标准的数据。
  • ISO 8000第61部分“信息和数据质量管理过程参考模型”描述数据质量管理的结构和组织,包括:
    • 1)数据质量规划
    • 2)数据质量控制
    • 3)数据质量保证
    • 4)数据质量改进

数据质量改进生命周期

  • 戴明环PDCA
    • 1)计划(Plan)阶段。数据质量团队评估已知问题的范围、影响和优先级,并评估解决这些问题的备选方案。
    • 2)执行(Do)阶段。数据质量团队负责努力解决引起问题的根本原因,并做出对持续监控数据的计划。
    • 3)检查(Check)阶段。包括积极监控按要求测量的数据质量。如果数据低于可接受的质量阙值,则必须采取额外措施使其达到可接受的水平。
    • 4)处理(Act)阶段。指处理和解决新出现的数据质量问题的活动。
  • 戴明环新周期开始于:
    • ①现有测量值低于阈值。
    • ②新数据集正在调查中。
    • ③对现有数据集提出新的数据质量要求。
    • ④业务规则、标准或期望变更。

数据质量业务规则类型:业务规则描述业务应该如何在内部运行,以便成功地与外部世界保持一致。数据质量业务规则描述了组织内有用数据和可用数据的存在形式。常见的业务规则类型:

  • 1)定义一致性。
  • 2)数值存在和记录完备性。定义数值缺失的情况是否可接受的规则。
  • 3)格式符合性。
  • 4)值域匹配性。
  • 5)范围一致性。
  • 6)映射一致性。表示分配给数据元素的值,必须对应于映射到其他等效对应值域中的选择的值。
  • 7)一致性规则。指根据这些属性的实际值,在两个(或多个)属性之间关系的条件判定。
  • 8)准确性验证。
  • 9)唯一性验证。
  • 10)及时性验证。表明与数据可访问性和可用性预期相关特征的规则。
  • 11)其它类型如聚合检查:
    • 1 验证文件中记录数量的合理性。
    • 2 验证从一组交易中算出的平均金额的合理性。
    • 3 验证指定时间段内交易数量的预期差异。

数据质量问题的常见原因:质量问题在数据生命周期的任何节点都可能出现。

DAMA-DMBOK2重点知识整理CDGA/CDGP——第13章 数据质量_第2张图片

  • 常见原因:
  • (1)缺乏领导力导致的问题。常识和研究表明,许多数据质量问题是由缺乏对高质量数据的组织承诺造成的,而缺乏组织承诺本身就是在治理和管理的形式上缺乏领导力。领导层缺乏 认可意味着组织内部缺乏将数据作为资产并进行质量管理的承诺。(重要认知)。
    • 有效管理数据质量的障碍包括:
      • 1)领导和员工缺乏意识。
      • 2)缺乏治理。
      • 3)缺乏领导力和管理能力。
      • 4)难以证明改进的合理性。
      • 5)测量价值的工具不合适或不起作用。
  • (2)数据输入过程引起的问题
    • 1)数据输入接口问题。
    • 2)列表条目放置。
    • 3)字段重载。
    • 4)培训问题。
    • 5)业务流程的变更。
    • 6)业务流程执行混乱。 
  • (3)数据处理功能引起的问题
    • 1)有关数据源的错误假设。
    • 2)过时的业务规则。
    • 3)变更的数据结构。 
  • (4)系统设计引起的问题
    • 1)未能执行参照完整性。
      • 导致的问题:
        • ①产生破坏唯一性约束的重复数据。
        • ②既可以包含,又可以排除在某些报表中的孤儿数据,导致同样的计算生成多个值。
        • ③由于参照完整性要求已还原或更改,无法升级。
        • ④由于丢失的数据被分配为默认值而导致数据准确性。
    • 2)未执行唯一性约束。
    • 3)编码不准确和分歧。
    • 4)数据模型不准确。
    • 5)字段重载。
    • 6)时间数据不匹配。
    • 7)主数据管理薄弱。
    • 8)数据复制。
      • 有害的数据复制问题主要有:
        • ①单源-多个本地实例。
        • ②多源-单一本地实例。 
  • (5)解决问题引起的问题

数据剖析(Data Profiling):一种用于检查数据和评估质量的数据分析形式。数据剖析使用统计技术来发现数据集合的真实结构、内容和质量。剖析还包括统计信息识别、跨列分析、表间分析。解决问题还需要其它形式的分析。

  • 统计信息识别问题的模式:
    • 1)空值数。标识空值存在,并检查是否允许空值。
    • 2)最大/最小值。识别异常值,如负值。
    • 3)最大/最小长度。确定具有特定长度要求的字段的异常值或无效值。
    • 4)单个列值的频率分布。能够评估合理性。
    • 5)数据类型和格式。

虽然剖析是理解数据的有效方法,但只是提高数据质量的第一步,它使组织能够识别潜在的问题。解决问题还需要其他形式的分析.包括业务流程分析、数据血缘分析和更深入的数据分析,这些分析有助于隔离出问题的根本原因

数据质量和数据处理:虽然数据质量改进工作的重点是防止错误,但也可以通过某种形式的数据处理来提升数据。

  • 提升数据质量的方式:
  • (1)数据清理或数据清洗。可以通过数据转换使其符合数据标准和域规则。清理包括检测和纠正数据错误,使数据质量达到可接受的水平。
    • 数据清理需求通过以下方式解决:
      • 1)实施控制以防止数据输入错误。
      • 2)纠正源系统中的数据。
      • 3)改进数据录入的业务流程。通过中游系统进行修正,代价更小。
  • (2)数据增强。给数据集添加属性以提高其质量和可用性的过程。
    • 数据增强示例:
      • 1)时间戳。有助于跟踪历史数据事件。定位问题的时间范围
      • 2)审计数据。审计可以记录数据血缘,这对于历史跟踪和验证很重要。
      • 3)参考词汇表。在定制化的业务语境中,特定于业务的术语、本体和词汇表增强了数据理解和控制。
      • 4)语境信息。上下文语境信息,以供审查和分析。
      • 5)地理信息。通过地址标准化和地理编码增强地理信息
      • 6)人口统计信息。可以通过人口统计信息增强客户数据,如年龄、婚姻状况、性别、收入或民族编码。
      • 7)心理信息。用于按特定行为、习惯或偏好对目标人群进行细分的数据,如产品和品牌偏好、组织成员资格、休闲活动、通勤交通方式、购物时间偏好等。
      • 8)评估信息。针对资产评估、库存和销售数据等使用这种增强方式。
  • (3)数据解析和格式化。使用预先确定的规则来解释其内容或值的分析过程。数据质量工具解析符合这些模式的任何数据值,然后将其转换为单一的标准化形式,从而简化评估、相似 性分析和补救过程。基于模式的解析可以自动识别,并促成有意义的值组件的标准化。如将电话号码格式化为区域代码、交换局代码、终端代码。
  • (4)数据转换与标准化。将原始格式和模式中的数据值映射到目标表述形式来指导基于规则的转换。模式中经解析的组件将按照知识库中的规则进行重新排列、更正或任何更改。

2、活动

2.1 定义高质量数据

  • 评估组织对数据质量改进的准备情况评估7问题:
    • 1)“高质量数据”是什么意思?
    • 2)低质量数据对业务运营和战略的影响是什么?
    • 3)更高质量的数据如何赋能业务战略?
    • 4)数据质量改进需要哪些优先事项的推动?
    • 5)对低质量数据的容忍度是多少?
    • 6)为支持数据质量改进而实施的治理是什么?
    • 7)配套实施的治理结构是什么?
  • 了解组织数据质量的当前状态弄清5内容:
    • 1)了解业务战略和目标。
    • 2)与利益相关方面谈,以识别痛点、风险和业务驱动因素。
    • 3)通过资料收集和其他剖析形式直接评估数据。
    • 4)记录业务流程中的数据依赖关系。
    • 5)记录业务流程的技术架构和系统支持。

2.2 定义数据质量战略

提高数据质量要有一定的战略,数据质量优先级必须与业务战略一致。

  • 采纳或开发一个框架及方法论将有助于指导战略和开展战术,同时提供衡量进展和影响的方法。一个框架应包括以下方法:
    • 1)了解并优先考虑业务需求。
    • 2)确定满足业务需求的关键数据。
    • 3)根据业务需求定义业务规则和数据质量标准。
    • 4)根据预期评估数据。
    • 5)分享调查结果,并从利益相关方那里获得反馈。
    • 6)优先处理和管理问题。
    • 7)确定并优先考虑改进机会。
    • 8)测量、监控和报告数据质量。
    • 9)管理通过数据质量流程生成的元数据。
    • 10)将数据质量控制集成到业务和技术流程中。还要考虑如何管理数据质量和如何利用数据质量工具。

2.3 识别关键数据和业务规则

数据质量改进计划通常从主数据开始。定好关键数据,再识别能描述或暗示有关数据质量特征要求的业务规则。数据质量度量围绕数据是否被适当使用进行。通过质量指标描述规则(字段X是强制的,必须有值)和结果(但实际上该字段3%记录无值,完整率仅为97%)。

2.4 执行初始数据质量评估

执行初始数据质量评估的目标是了解数据,以便定义可操作的改进计划。

  • 通常最好从聚焦一项较小工作开始(POC)。步骤:
    • 1)定义评估的目标。这些目标将推动工作进展。
    • 2)确定要评估的数据。重点应放在一个小的数据集,甚至一个数据元素,或一个特定的数据质量问题上。
    • 3)识别数据的用途和数据的使用者。
    • 4)利用待评估的数据识别已知风险,包括数据问题对组织过程的潜在影响。
    • 5)根据已知和建议的规则检查数据。
    • 6)记录不一致的级别和问题类型。
    • 7)根据初步发现进行额外的深入分析,以便
      • 1.量化结果
      • 2.根据业务影响优化问题
      • 3.提出关于数据问题根本原因的假设
    • 8)与数据管理专员、领域专家和数据消费者会面,确认问题和优先级。
    • 9)使用调查结果作为规划的基础。
      • 1.解决问题,最好是找到问题的根本原因;
      • 2.控制和改进处理流程,以防止问题重复发生;
      • 3.持续控制和汇报。

2.5 识别改进方向并确定优先排序

需要识别潜在的改进措施,并确定其优先顺序。识别可以通过对较大数据集进行全面的数据分析来完成,以了解现有问题的广度;也可以通过其他方式实现,如就数据的影响问题与利益相关方进行沟通,并跟踪分析这些问题的业务影响。讨论确定顺序。

  • 确定顺序的步骤:
    • 定义目标
    • 了解数据使用和风险
    • 根据规则衡量、记录并与领域专家确认结果

利用这些信息确定补救和改进工作的优先级。大规模的数据剖析工作,仍应集中在最关键的数据上。确定影响需要数据链上的利益相关方的介入。

2.6 定义数据质量改进目标

数据质量提升从简单补救到根本原因改进。补救和改进计划可以快速解决问题到长期的战略性变化。重点应是解决问题的根本原因,并建立问题的预防机制。

  • 阻碍因素:
    • 系统限制
    • 数据龄期
    • 正在进行的使用有问题数据的项目
    • 数据环境的总体复杂性
    • 文化变革阻力

要设定具体的、可实现的目标来应对。改善数据必须有积极的投资回报,没有人关心字段完整性的级别,除非有业务影响。

  • 根据以下内容确定改进的投资回报率:
    • 1)受影响数据的关键性(重要性排序)。
    • 2)受影响的数据量。
    • 3)数据的龄期。
    • 4)受问题影响的业务流程数量和类型。
    • 5)受问题影响的消费者、客户、供应商或员工数量。
    • 6)与问题相关的风险。
    • 7)纠正根本原因的成本。
    • 8)潜在的工作成本。

2.7 开发和部署数据质量操作

2.7.1 管理数据质量规则:

  • 预先定义规则将:
    • 1)对数据质量特征设定明确的期望。
    • 2)提供防止引入数据问题的系统编辑和控制要求。
    • 3)向供应商和其他外部方提供数据质量要求。
    • 4)为正在进行的数据质量测量和报告创建基础。
  • 把数据质量和规范作为元数据管理的规则:
    • 1)记录的一致性。
    • 2)根据数据质量维度定义。质量维度帮助人们了解正在测量的内容。维度的一致应用将有助于度量和管理问题的过程。
    • 3)与业务影响挂钩。不应采取与业务流程无关的度量!!!
    • 4)数据分析支持。数据质量分析人员不应猜测规则,而应根据实际数据测试规则。
    • 5)由领域专家确认。当主题专家确认或解释数据分析的结果时,知识就产生了。
    • 6)所有数据消费者都可以访问。

2.7.2 测量和监控数据质量

业务数据质量管理过程取决于测量和监控数据质量的能力。

  • 进行质量度量的原因:
    • 1)向数据消费者通报质量水平。
    • 2)管理业务或技术流程,改变引入的变更风险。

应根据数据评估和根本原因分析的结果制定测量方法。应将从过去的问题中获得的知识应用于风险管理。测量结果可以分为两个层次进行描述:执行单个规则相关的详细信息和规则汇总的总体结果。

  • 度量公式:
    • 有效数据质量=(总测试数-异常数)/总测试数
    • 无效数据质量=异常数/总测试数

数据质量规则为数据质量的操作管理提供了基础。通过将控制和度量过程纳入信息处理流程进行持续的监控,可以通过流程或批处理的方式对数据质量规则的一致性进行自动监控,在三个粒度级别上进行度量:数据元素值、数据实例或记录、数据集。

2.7.3 制定管理数据问题的操作过程

  • 步骤:
    • (1)诊断问题
      • 1)在适当的信息处理流程下查看数据问题,并隔离出现缺陷过程的位置。
      • 2)评估是否存在任何可能导致错误的环境变化。
      • 3)评估是否有其他过程问题导致了数据质量事件。
      • 4)确定外部数据是否存在影响数据质量的问题。
    • (2)制订补救方案
      • 1)纠正非技术性根本原因,如缺乏培训、缺乏领导支持、责任和所有权不明确等。
      • 2)修改系统以消除技术类的根本原因。
      • 3)制定控制措施以防止问题发生。
      • 4)引入额外的检查和监测。
      • 5)直接修正有缺陷的数据。
      • 6)基于变更的成本和影响对比更正后的数据的价值分析,不采取任何操作。 
    • (3)解决问题
      • 1)评估替代方案的相对成本和优点。
      • 2)推荐计划中的一个备选方案。
      • 3)提供开发和实施该解决方案的计划。
      • 4)实施该解决方案。
  • 进行有效的跟踪需要做到以下几点:
    • 1)标准化数据质量问题和活动。
    • 2)提供数据问题的分配过程。操作过程指导分析人员将数据质量事件分配给个人进行诊断,并提供解决方案。推荐那些具有特定专业领域知识的人员推动事件跟踪系统内的分配过程。
    • 3)管理问题升级过程。数据质量问题处理需要根据问题的影响、持续时间或紧急程度制定明确的升级机制,明确规定数据质量服务级别协议(SLA)中的升级顺序。
    • 4)管理数据质量解决方案工作流。数据质量服务水平协议(SLA)规定了监控、控制和解决的目标,所有这些定义了操作工作流的集合。事件跟踪系统可以支持工作流管理,以跟踪问题诊断和解决的进度。

2.7.4 制定数据质量服务水平协议:

SLA 规定了组织对每个系统中数据质量问题进行响应和补救的期望。

  • 数据质量控制操作包括:
    • 1)协议涵盖的数据元素。
    • 2)与数据缺陷相关的业务影响。
    • 3)与每个数据元素相关的数据质量指标。
    • 4)从每个已确定指标的数据元素出发,识别数据价值链上每个应用程序系统中的质量期望。
    • 5)测量这些期望的方法。
    • 6)每次测量的可接受性阈值。
    • 7)如果不满足可接受性阈值,应通知数据管理专员。
    • 8)预期解决或补救问题的时间和截止日期。
    • 9)升级策略,以及可能的奖励和惩罚。还定义了与业务数据质量过程绩效相关的角色和职责。

2.7.5 编写数据质量报告

  • 报告应着重于:
    • 1)数据质量评分卡。可从高级别的视角提供与各种指标相关的分数,并在既定的阈值内向组织的不同层级报告。
    • 2)数据质量趋势。 随时间显示数据质量是怎样被测量的,以及数据质量趋势是向上还是向下。
    • 3)服务水平协议(SLA)指标。
    • 4)数据质量问题管理。监控问题和解决方案的状态。
    • 5)数据质量团队与治理政策的一致性。
    • 6)IT和业务团队对数据质量政策的一致性。
    • 7)改善项目带来的积极影响。

3、工具

详见语境关系图

4、方法

4.1 预防措施

创建高质量数据的最佳方法是防止低质量数据进入组织。预防措施可以阻止已知错误的发生在事后对数据进行检查并不能提高其质量。

  • 预防措施。
    • 1)建立数据输入控制。
    • 2)培训数据生产者。
    • 3)定义和执行规则。
    • 4)要求数据供应商提供高质量数据。
    • 5)实施数据治理和管理制度。
    • 6)制定正式的变更控制。

4.2 纠正措施

问题发生并被检测到之后,实施纠正措施。数据质量问题应系统地、从根本上解决,最大限度地降低纠正措施的成本和风险。“就地解决问题”是数据质量管理中的最佳实践,这通常意味着纠正措施应包括防止产生质量问题的原因再次发生。

  • 纠正措施。
    • 1)自动修正。
    • 2)人工检查修正。
    • 3)人工修正。

4.3 质量检查和审核代码模块

创建可共享、可链接和可重用的代码模块,开发人员可以从存储库中拿到它们,重复执行数据质量检查和审计过程,可简化维护过和防止数据质量问题。

4.4 有效的数据质量指标

  • 数据分析人员应考虑的特征:
    • 1)可度量性。
    • 2)业务相关性。
    • 3)可接受性。
    • 4)问责/管理制度。
    • 5)可控制性。
    • 6)趋势分析。

4.5 统计过程控制 SPC

通过分析过程输入、输出和步骤的变化测量值来管理过程的方法。SPC基于这样一个假设:当一个具有一致输入的过程被一致执行时,它将产生一致的输出。它使用集中趋势和围绕中心值可变性的度量来确定过程中的偏差公差。

  • 第一步是对过程进行测量。
  • 第二步是尽可能早的发现异常变化。 

4.6 根本原因分析

  • 常见的根因分析技术:
    • 帕累托分析(80/20规则)
    • 鱼骨图分析
    • 跟踪和追踪
    • 过程分析
    • 五个为什么

5、实施指南

  • 混合方法最有效:
    • 自上而下持续提供支持和资源
    • 自下而上发现实际存在的问题并解决
  • 数据质量项目实施需要计划:
    • 1)有关数据价值和低质量数据成本的指标。
    • 2)IT/业务交互的操作模型。业务人员了解数据的意义及其重要性,IT数据管理人员了解数据存储的位置和方式。
    • 3)项目执行方式的变化。
    • 4)对业务流程的更改。
    • 5)为补救和改进项目提供资金。
    • 6)为数据质量运营提供资金。

5.1 就绪评估/风险评估

组织采用数据质量的实践准备情况,可以通过以下特征进行评估:

  • 1)管理层承诺将数据作为战略资产进行管理。
  • 2)组织对数据质量的当前理解。障碍和痛点。
  • 3)数据的实际情况。以客观的方式描述导致痛点的数据情况是改进数据的第一步。量化来度量和描述数据。
  • 4)与数据创建、处理或使用相关的风险。
  • 5)可扩展数据质量监控的文化和技术就绪。数据质量可能受到业务和技术流程的负面影响。

5.2 组织与文化变革

数据质量不是通过一些工具和口号就能改进的,而是要通过帮助员工和利益相关方树立不断行动的思维观念,同时要始终考虑数据质量和业务与客户的需求来改进。让一个组织认真对待数据质量,通常需要进行重大的文化变革。这种变革需要领导者的远见和领导力(一把手工程)。

  • 首先要提高数据对组织作用和重要性的认识。
  • 要培训和强化训练,让员工生成更高质量的数据并确保质量的方式管理数据。

培训应着重于

  • 1)导致数据问题的常见原因。
  • 2)组织数据生态系统中的关系以及为什么提高数据质量需要全局方法。
  • 3)糟糕数据造成的后果。
  • 4)持续改进的必要性(为什么改进不是一次性的)。
  • 5)要“数据语言化”,阐述数据对组织战略与成功、监管报告和客户满意度的影响。

6、数据质量和数据治理

数据质量工作作为数据治理计划的组成部分时,效果更好

将数据质量纳入整体治理,其它利益方可以

  • 1)风险与安全人员可以帮助识别与数据相关的组织弱点。
  • 2)业务流程工程和培训人员,可以帮助团队实施流程改进。
  • 3)业务和运营数据专员以及数据所有者,他们可以识别关键数据、定义标准和质量期望,并优先处理数据问题。

数据质量和数据治理。治理组织可以通过以下方式加快数据质量方案的工作

  • 1)设定优先级。
  • 2)确定和协调有权参与各种数据质量相关决定和相关活动的人。
  • 3)制定和维护数据质量标准。
  • 4)报告企业范围内数据质量的相关测量。
  • 5)提供有助于员工参与的指导。
  • 6)建立知识共享的沟通机制。
  • 7)制定和应用数据质量和合规政策。
  • 8)监控和报告绩效。
  • 9)共享数据质量检查结果,以提高认识,确定改进机会,并就改进达成共识。
  • 10)解决变化和冲突,提供方向性指导。

6.1 数据质量制度

数据质量工作应有匹配的数据治理制度的支持。

数据质量制度内容应包括

  • 1)制度的目的、范围和适用性。
  • 2)术语定义。
  • 3)数据质量团队的职责。
  • 4)其他利益相关方的责任。
  • 5)报告。
  • 6)策略的实施,包括与之相关的风险、预防措施、合规性、数据保护和数据安全性等。

6.2 度量指标

数据质量团队的大部分工作将集中于质量的度量和报告上。

数据质量的高阶指标包括

  • 1)投资回报。关于改进工作的成本与改进数据质量的好处的声明。
  • 2)质量水平。错误的数量和比率。
  • 3)数据质量趋势
  • 4)数据问题管理指标
    • 按数据质量指标对问题分类与计数
    • 各业务职能部门及其问题状态(已解决、未解决、已升级)
    • 按优先级和严重程度对问题排序
    • 解决问题的时间。
  • 5)服务水平的一致性
  • 6)数据质量计划示意图。现状和扩展路线图。

你可能感兴趣的:(数据治理,数据仓库,大数据,云计算)