DAMA数据治理学习笔记-数据质量

数据质量

定义

为了确保满足数据消费者的需求,应用数据管理技术进行规划、实施、控制等管理活动

业务驱动因素

  • 提高组织数据价值和数据利用的机会
  • 提高低质量数据导致的风险和成本
  • 提高组织效率和生产力
  • 保护和提高组织的声誉

低质量数据导致风险

  • 无法正确的开具发票
  • 增加客服电话量,降低解决问题的能力
  • 因措施商业机会造成收入损失
  • 影响并购后的整合进展
  • 增加受欺诈的风险
  • 由错误数据驱动的错误业务决策造成的损失
  • 因缺乏良好信誉而导致的业务损失

目标

  • 根据数据消费者的需求,开发一种受管理的方法,使数据适合要求
  • 定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分
  • 定义和实施测量、监控和报告数据质量水平的过程

原则

  • 重要性
  • 全生命周期
  • 预防
  • 根因修正
  • 治理
  • 标准驱动
  • 客观测量和透明度
  • 嵌入业务流程
  • 系统强制执行
  • 与服务水平关联

活动

定义高质量数据

定义数据质量战略

识别关键数据和业务规则

  1. 识别关键数据
  2. 识别已有规则和模式

执行数据质量初始评估

  1. 确定问题并排定优先级
  2. 执行问题根本原因分析

确定改进方向并排定优先顺序

  1. 根据业务影响确定行动的优先级
  2. 制定预防和纠正措施
  3. 确认计划的行动

定义数据质量改进目标

开发和部署数据质量操作

  1. 开发数据质量操作规程
  2. 修正数据质量缺陷
  3. 度量和监控数据质量
  4. 报告数据质量水平和调查结果

Stong-Wang框架数据质量4个大类

  • 内在数据质量
  • 场景数据质量
  • 表达数据质量
  • 访问数据质量

DAMA UK数据质量的6个核心维度

  • 完备性
  • 唯一性
  • 及时性
  • 准确性
  • 有效性
  • 一致性

数据质量改进生命周期(PDCA)

  • 计划
  • 执行
  • 检查
  • 处理

常见的业务规则

  • 定义一致性
  • 数值存在的记录完备性
  • 格式符合性
  • 值域匹配性
  • 范围一致性
  • 映射一致性
  • 一致性规则
  • 准确性验证
  • 唯一性验证
  • 及时性验证

数据质量问题的常见原因

  • 缺乏领导力导致的问题
  • 数据输入过程引起的问题
  • 数据处理功能引起的问题
  • 系统设计引起的问题
  • 解决问题引起的问题

提升数据质量形式

  • 数据清理或数据清洗
  • 数据增强
  • 数据解析和格式化
  • 数据转换与标准化

工具

  • 数据剖析工具
  • 数据查询工具
  • 建模和ETL工具
  • 数据质量规则模板
  • 元数据存储库

方法

  • 预防措施
  • 纠正措施
  • 质量检查和代码审核模块
  • 有效的数据质量指标
  • 统计过程控制
  • 根本原因分析

实施指南

  • 就绪评估/风险评估
  • 组织和文化变革

度量指标

  • 投资回报
  • 质量水平
  • 数据质量趋势
  • 数据问题管理指标
  • 数据质量计划示意图

你可能感兴趣的:(DAMA数据治理学习笔记,学习,大数据)