数据质量监控(Griffin)

1.为什么要做数据质量监控

1) 数据不一致
企业早期没有进行统一规划设计,大部分信息系统是逐步迭代建设的,系统建设时间长短各异,各系统数据标准也不同。企业业务系统更关注业务层面,各个业务系统均有不同的侧重点,各类数据的属性信息设置和要求不统一。另外,由于各系统的相互独立使用,无法及时同步更新相关信息等各种原因造成各系统间的数据不一致,严重影响了各系统间的数据交互和统一识别,基础数据难以共享利用,数据的深层价值也难以体现。
2) 数据不完整
由于企业信息系统的孤立使用,各个业务系统或模块按照各自的需要录入数据,没有统一的录入工具和数据出口,业务系统不需要的信息就不录,造成同样的数据在不同的系统有不同的属性信息,数据完整性无法得到保障。
3) 数据不合规
没有统一的数据管理平台和数据源头,数据全生命周期管理不完整,同时企业各信息系统的数据录入环节过于简单且手工参与较多,就数据本身而言,缺少是否重复、合法、对错等校验环节,导致各个信息系统的数据不够准确,格式混乱,各类数据难以集成和统一,没有质量控制导致海量数据因质量过低而难以被利用,且没有相应的数据管理流程。
4) 数据不可控
海量数据多头管理,缺少专门对数据管理进行监督和控制的组织。企业各单位和部门关注数据的角度不一样,缺少一个组织从全局的视角对数据进行管理,导致无法建立统一的数据管理标准、流程等,相应的数据管理制度、办法等无法得到落实。同时,企业基础数据质量考核体系也尚未建立,无法保障一系列数据标准、规范、制度、流程得到长效执行。
5) 数据冗余
各个信息系统针对数据的标准规范不一、编码规则不一、校验标准不一,且部分业务系统针对数据的验证标准严重缺失,造成了企业顶层视角的数据出现“一物多码”、“一码多物”等现象。
 

2.建设方法

质量监管平台建设,主要包含如下 8 大流程步骤:
质量需求:发现数据问题;信息提报、收集需求;检核规则的需求等;
提炼规则:梳理规则指标、确定有效指标、检核指标准确度和衡量标准;
规则库构建:检核对象配置、调度配置、规则配置、检核范围确认、检核标准确定等;
执行检核:调度配置、调度执行、检核代码;
问题检核:检核问题展示、分类、质量分析、质量严重等级分类等;
分析报告:数据质量报告、质量问题趋势分析,影响度分析,解决方案达成共识;
落实处理:方案落实执行、跟踪管理、解决方案 Review 及标准化提炼;
知识库体系形成:知识经验总结、标准方案沉淀、知识库体系建设。
 

3.监控指标

1 )单表数据量监控
一张表的记录数在一个已知的范围内,或者上下浮动不会超过某个阈值
  • SQL 结果: var 数据量 = count 昨天 (如果设置了时间字段的话)满足 过滤条件 的记录)
  • 数值检测:如果数据量不在 [ 数值下限 , 数值上限 ]   则触发报警
  • 同比增加:如果 (( 本周的数据量 - 上周的数据量 )/ 上周的数据量 *100) 不在  [ 比例下线,比例上限 ] ,则触发报警
  • 环比增加:如果 (( 今天的数据量 - 昨天的数据量 )/ 昨天的数据量 *100) 不在  [ 比例下线,比例上限 ] ,则触发报警
  • 阈值配置 的六个数值当中,至少配置一个阈值 . 对于没有配置的阈值,不做监控
2 )单表空值检测
某个字段为空的记录数在一个范围内,或者占总量的百分比在某个阈值范围内
  • 目标字段:选择要监控的字段,不能选
  • SQL 结果: var 异常数据量 = count " 目标字段 " 为空的记录)
  • 单次检测:如果 ( 异常数据量 ) 不在 [ 数值下限 , 数值上限 ] ,则触发报警
3 )单表重复值检测
一个或多个字段是否满足某些规则
  • 目标字段:选择要监控的字段, group by 这里的字段列表后,没有重复
  • 单次检测:如果 ( 异常数据量 ) 不在 [ 数值下限 , 数值上限 ]   则触发报警
4 )单表值域检测
一个或多个字段没有重复记录
  • 目标字段:选择要监控的字段,支持多选
  • 检测规则:填写 目标字段 要满足的条件。其中 $1 表示第一个目标字段, $2 表示第二个目标字段,以此类推。上图中的 检测规则 经过渲染后变为 “delivery_fee = delivery_fee_base+delivery_fee_extra”
  • 阈值配置与 空值检测 相同
5 )跨表数据量对比
主要针对同步流程,监控两张表的数据量是否一致
  • SQL 结果: count( 本表 ) - count( 关联表 )
  • 阈值配置与 空值检测 相同
6 )跨表主外键对比
  • 监控字段和关联字段:需要符合外键约束的两个字段
  • 阈值配置与 空值检测 相同
 

4.Griffin数据质量监控实现

https://blog.csdn.net/An342647823/article/details/86543432
 
 
 

你可能感兴趣的:(#,数据质量)