Hive 数仓数据质量治理

1. 数据质量概述

数据质量是数据创建价值的保障基石,高质量的数据为数据统计、分析和应用提供了可信任的必要条件。

数据质量管理是指在数据创建、加工、使用和迁移等过程中,通过开展数据质量定义、过程控制、监控、问题分析和整改、评估和考核等一系列管理活动,提高数据质量以满足业务要求。

可按照"谁创建,谁负责;谁加工,谁负责;谁提供,谁负责"的原则界定数据质量管理责任,由数据流转环节的各责任方对管辖范围内的数据质量负责。对数据质量规则优先采取系统程序的自动化控制措施,并尽可能迁移管控点,从源头上控制数据质量。

应当建立一系列有效的方法和流程提升数据质量。
首先,应当明确定义数据质量需求和数据质量范围,在此基础上选定测量数据、制定测量规则,通过设计和建设数据质量检核模型进行数据质量问题识别,并深入分析原因。
再次,针对发现的质量问题分派责任方,拟定改进方案并执行改进和跟踪评估。

建立数据质量考核机制,且针对重要甚至重大问题进行有效问责。通过长时间积累的质量问题,进行问题分类管理,形成和丰富质量问题知识库,持续完善质量检核模型以及问题流程化管理。

数据质量审计工作评估数据风险度的和健康度,主要评估维度:
数据一致性:相同数据项在不同系统或同一个系统内不同表记录多次时,多个数据值是否相同。
数据准确性:数据是否符合数据标准中的业务定义。
数据完整性:业务需求所需的关键数据项在系统中是否有定义,或者关键数据项是否都采集了数据。

你可能感兴趣的:(hive,hive,大数据,数据仓库,数据质量,数据治理)