数据质量检查工具

  1. 应用场景
    常用场景是将数据引接到数仓,对数据质量进行检查。
  2. 主要功能
    (1)数据质量检查规则
    提供质量规则:空值检查、重复值检查、值域检查、规范检查、波动检查、离群值检查、完整性检查、逻辑检查、自定义检查等。
    (2)数据质量检查模板配置
    针对数据集,根据提供的质量规则列表,选择检查项,配置针对检查项的检查参数,生成质量检查模板。
    (3)数据质量检查调度
    配置调度参数,定时执行数据质量检查任务。
    (4)数据质量检查报告
    执行质量检查任务,生成质量检查报告,提供报告下载功能。
  3. 技术实现
    (1)质量检查规则实现
    (2)执行引擎
    Sql、Python。SparkSql。
    (3)数据库
    (4)定时调度
    定时调度引擎。
    参考:
    [Apache Griffin]
    [Openrfine]
    按表配置监控规则
    内置模板规则
    Profiling Use Case
    内置模板规则

你可能感兴趣的:(数据质量检查工具)