数仓建设学习路线(五)-数据质量保障

什么是数据质量?

数据质量,意如其名,就是数据的准确性,他是数据仓库的基石,控制好数据质量,是做数据仓库基本要求,也使得下游业务方对数据用的放心

数据质量的痛点有哪些

 数据问题该如何上报修复,缺少流程化

 数据链路缺少卡点保障

 数据不能及时产出影响到下游用数

 用户无感知,除了发现的数据问题,隐藏的数据问题仍存在

 很多人会有一种想法,做了这么久的数仓为什么还存在质量问题?

数据质量保障措施

数仓建设学习路线(五)-数据质量保障_第1张图片

模型上线

设计模型 -->组内模型评审 -->代码编写 -->提交运行(dev环境) -->代码审核数据校验(数据校验时需要给审核人提供数据比对结果) -->配置DQC -->数据初始化(线上环境)

模型变更

确定需求(了解需求背景) -->代码编写 -->提交运行(dev环境) -->代码审核&数据校验(数据校验时需要给审核人提供数据比对结果) -->配置DQC(可省略,或添加业务dqc) -->数据初始化(线上环境)

指标变更

  1. 如果发现字段变更后对下游自己的表/报表产生影响,那自己负责修改代码并让其他同学进行代码审核、数据质量审核且任务运行成功后方可发布线上
  2. 如果下游血缘存在不是自己的表/报表,需要在相关业务群里说一下/找到下游表owner/报表owner发送通知,让下游owner进行修改,如联系不上需要向owner的leader说明问题,并且让下游表/报表的owner当天回复一下受不受影响,不回复则对方承担问题责任,如果对方不接受修改方案,需要双方约定一下修改内容、修改日期,重定方案

代码检验工具

数据探查

数仓建设学习路线(五)-数据质量保障_第2张图片 数仓建设学习路线(五)-数据质量保障_第3张图片

数据比对

数仓建设学习路线(五)-数据质量保障_第4张图片 数仓建设学习路线(五)-数据质量保障_第5张图片

手动验证

数据探查

 表数据量

 关键性字段扫描(特指主键),唯一性、最大最小值/长度,空值占比

 其余字段扫描:空值占比、最大最小值/长度、枚举值占比

数据比对

 dev表与pro表比对(同分区,且比对内容不涉及新添加内容)

 表数据量

 表去重后数据量

 字段总体/个别一致率(这里指两张表同字段数据比对)

重点来了

下一讲我们详细聊聊DQC的整个过程以及实施方案,如果对这个系列感兴趣的同学可以点赞收藏,也可以私信我获取全套的课件及课程,也可以关注公众号:语数,获取全部的招聘内推岗位及体系课资料

本文由 mdnice 多平台发布

你可能感兴趣的:(程序人生)