大数据--数据仓库3--数据质量/元数据/数据治理

目录

一:数据一致性如何保证

1.1 数据不一致性的体现

1.2 数据一致性的目标

1.3 数据一致性思考方向

1.4 数据一致性具体如何保证

1.4.1 统一命名规范

1.4.2 研发流程规范

1.4.3 研发工具保障

1.4.4 指标结果监控

二:数据质量管理

2.1 数据质量管理的定义

2.2 数据质量实施流程

2.3 数据质量管理总结

三:元数据管理

3.1 元数据的定义

3.2 元数据分类

3.3 元数据价值

3.4 元数据应用

四:数据治理


一:数据一致性如何保证

1.1 数据不一致性的体现

  • 同样的指标来自两张不同的表,结果不一样
  • 同样的指标,数据源自同一张表,但是是2个需求,指标口径不统一。
  • 同一个指标,命名不一样,导致重复计算。
  • 不同的两个指标,命名一样,导致产生误解

1.2 数据一致性的目标

  • 从设计,开发,部署和使用层面,避免重复建设和指标冗余建设,从而保障数据口径的规范和统一,最终实现数据资产全链路关联,提供标准数据输出以及建立统一的数据公共层。

1.3 数据一致性思考方向

  • 口径一致性(计算口径,可以从结果去做监控)
  • 命名一致性(通过指标管理平台来管理)

1.4 数据一致性具体如何保证

1.4.1 统一命名规范

  • 词根梳理评审
  • 指标评审及指标定义
  • 指标命名规范

1.4.2 研发流程规范

开发流程:

  • 需求分析调研,明确口径,评估排期,需求正规流程提交
  • 指标管理:完善指标命名规范,指标同名同义,指标和业务强相关,明确指标构成要素
  • 模型设计:完善开发流程规范,标准化业务调研,知识库文档集中管理,建立模型评审机制。
  • ETL开发:ODS,DWD,DWS,DWT,ADS
  • 数据验证:制定数据测试标准
  • 任务调度:规划化调度参数配置
  • 上线管理

清洗规范

  • 单位统一,比如金额单位统一为元
  • 字段类型统一
  • 注释补全
  • 空值用默认值或者中位数填充
  • 时间字段格式统一
  • json数据解析
  • 枚举值统一
  • 过滤没有意义的数据。

1.4.3 研发工具保障

设计原则

  • 指标口径一致性
  • 使用便捷性
  • 数据处理智能及高性能
  • 开发维护高效性

展示

  • 指标编码
  • 指标名称
  • 业务口径
  • 指标类型
  • 存储的表
  • 责任人
  • 创建时间
  • 状态

1.4.4 指标结果监控

二:数据质量管理

2.1 数据质量管理的定义

        数据质量管理是指对数据从计划,获取,存储,共享,维护,应用,消亡生命周期的每个阶段可能引发的各类数据质量问题,进行识别,度量,监控,预警等一系列管理活动,并且通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理相对来说成本较高,因为它涉及到企业数据标准的制定,规范的落地,生命周期的管理等多个环节。

大数据--数据仓库3--数据质量/元数据/数据治理_第1张图片

  • 完整性:数据条目,数据属性是否完整
  • 一致性:多源数据的数据模型是否一致,例如数据编码,含义,生命周期等
  • 准确性:准确性也叫可靠性  
  • 唯一性:用于识别和度量重复数据,冗余数据,重复数据是导致业务无法协同,无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题
  • 关联性:数据关联性问题是指存在数据关联的数据关系缺失或者错误。
  • 真实性:数据必须真实准确反映客观存在或者真实的业务。
  • 及时性:数据及时性是指能否在需要的时候获取到数据,

2.2 数据质量实施流程

  1. 事前定义质量规则(梳理表,字段等信息,确定资产等级)
  2. 事中监控数据质量(数据唯一性,脏数据清洗)
  3. 事后分析和问题跟踪
  4. 重大问题告警(警告,数据整改)

2.3 数据质量管理总结

        数据质量贯穿数据生命周期的全过程,覆盖质量评估,数据监控,数据探查,数据清洗,数据诊断等方面。数据源在不断增多,数据量在不断加大,新需求推动的新技术也不断诞生,这些都对大数据下的质量管理带来了困难和挑战。因此,数据质量管理要形成完善的体系,建立持续改进的流程和良性机制,持续监控各系统数据质量波动情况以及数据质量规则分析,适时升级数据质量监控的手段和方法,确保持续掌握数据质量状况,最终达到数据质量的平稳状态,为业务系统提供良好的数据保障

三:元数据管理

3.1 元数据的定义

     元数据主要记录数据仓库中模型的定义,各层级间的映射关系,监控数据仓库的数据状态以及ETL的任务运行状态。在数据仓库系统中,元数据可以帮助数据仓库管理员和开发人员非常方便地找到他们所关心的数据,用于指导其进行数据管理和开发工作,可以极大的提升工作的效率。

3.2 元数据分类

元数据分类:技术元数据和业务元数据

技术元数据:技术元数据是存储关于数据仓库技术细节的数据,是用于开发和管理数据仓库使用的数据。常见的技术元数据有:

1)存储元数据

        如表,字段,分区等信息。记录了表的中英文名及表状态。分区信息,责任人信息,对应主题,文件大小,表类型,生命周期,权限信息,保密级别等

2)运行元数据

        如大数据平台上所有的作业运行等信息:类似于Hive Job日志,包括作业类型,实例名称,输入输出,SQL,运行参数,执行时间,执行引擎等。

3)数据开发平台中数据同步,计算任务,任务调度等信息

        包括数据同步的输入输出表和字段,以及同步任务本身的节点信息,任务调度主要有任务的依赖类型,依赖关系等,以及不同类型的调度任务的运行日志等。

4)数据质量和运维相关元数据

        如任务监控,运维报警,数据质量,故障等信息,包括任务监控运行日志,告警配置及运行日志,故障信息。

业务元数据

     业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂“数据仓库中的数据”。

        常见的业务元数据有维度及属性(包括维度编码,字段类型,创建人,创建时间,状态等),业务过程,指标(指标名称,指标编码,业务口径,指标类型,责任人,创建时间,状态,sql),安全级别,计算逻辑等规范化定义,用于更好地管理和使用数据。数据应用元数据(数据报表,数据产品等的配置和运行元数据)

3.3 元数据价值

        元数据有重要的应用价值,是数据管理,数据内容,数据应用的基础,在数据管理方面为集团数据提供在计算,成本,质量,安全,模型等治理领域的数据支持。例如在计算上可以利用元数据查找超长运行节点,对这些节点进行专项治理,保障基线产出时间。在数据内容方面为集团数据进行数据域、数据主题、业务属性等的提取和分析提供数据素材。例如可以利用元数据构建知识图谱,给数据打标签,清楚地知道现在有哪些数据。在数据应用方面打通产品及应用链路,保障产品数据准确、及时产出。例如打通DP和应用数据,明确数据产等级,更有效地保障产品数据。

3.4 元数据应用

        数据的真正价值在于数据驱动决策,通过数据指导运营。通过数据驱动的方法,我们能够判断趋势 ,从而展开有效行动,帮助自己发现问题,推动创新或解决方案的产生。这就是数据化运营。同样,对于元数据,可以用于指导数据相关人员进行日常工作,实现数据化“运营”。比如对于数据使用者,可以通过元数据让其快速找到所需要的数据;对于ETL 工程师,可以通过元数据指导其进行模型设计、任务优化和任务下线等各种日常ETL 工作;对于运维工程师,可以通过元数据指导其进行整个集群的存储、计算和系统优化等运维工作。

四:数据治理

参见深度好文:https://mp.weixin.qq.com/s/RThj9jyZIClE4sAgoj0Y_g

1.为什么要进行数据治理

2.需要进行哪些数据治理

3.数据治理策略

4.数据质量

5.统一数仓规范建模

6.数仓开发配置化

7.统一指标管理

参考文献:

https://mp.weixin.qq.com/s/vcr6CODS_XHSKNvh3N2mYw

https://mp.weixin.qq.com/s/_NnwVMaqNaYg2U3EGh4Nhg

https://mp.weixin.qq.com/s/RThj9jyZIClE4sAgoj0Y_g

 

你可能感兴趣的:(大数据,#,数据仓库)