数据仓库-元数据管理

一、什么是元数据

元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),一组用于描述数据的数据组,该数据组的一切信息都描述了该数据的某方面特征,则该数据组即可被称为元数据。业务含义、统计口径、数据来源、计算逻辑等就是元数据。

现在数据对于公司的决策十分的重要,随着业务的发展,业务线会慢慢庞大起来,随着开发人员的变更以及增多,没有元数据治理,很难保证数据质量,这时候就需要元数据管理,用来记录公司拥有什么数据,数据在哪里、由谁负责,数据中的值意味着什么,数据的生命周期是什么,哪些数据安全性和隐私性需要保护,以及谁使用了数据,用于什么业务目的,数据的质量怎么样,等等。

二、元数据的组成

元数据贯穿整个数据仓库,根据情况可以分为三种:业务元数据技术元数据管理元数据。

1、业务元数据

业务元数据描述数据的业务含义、业务规则等。通过明确业务元数据,让人们更容易理解和使用业务元数据。元数据消除了数据二义性,让人们对数据有一致的认知,避免“自说自话”,进而为数据分析和应用提供支撑。

常见的业务元数据有:

  • 业务定义、业务术语解释等;

  • 业务指标名称、计算口径、衍生指标等;

  • 业务规则引擎的规则、数据质量检测规则、数据挖掘算法等;

  • 数据的安全或敏感级别等。

2、技术元数据

技术元数据是对数据的结构化,方便计算机或数据库对数据进行识别、存储、传输和交换。技术元数据可以服务于开发人员,让开发人员更加明确数据的存储、结构,从而为应用开发和系统集成奠定基础。技术元数据也可服务于业务人员,通过元数据理清数据关系,让业务人员更快速地找到想要的数据,进而对数据的来源和去向进行分析,支持数据血缘追溯和影响分析。

常见的技术元数据有:

  • 物理数据库表名称、列名称、字段长度、字段类型、约束信息、数据依赖关系等;

  • 数据存储类型、位置、数据存储文件格式或数据压缩类型等;

  • 字段级血缘关系、SQL脚本信息、ETL抽取加载转换信息、接口程序等;

  • 调度依赖关系、进度和数据更新频率等

3、管理元数据(操作元数据)

管理元数据描述数据的操作属性,包括管理部门、管理责任人等。明确管理属性有利于数据管理责任到部门和个人,是数据安全管理的基础。

常见的操作元数据有:

  • 数据所有者、使用者等;

  • 数据的访问方式、访问时间、访问限制等;

  • 数据访问权限、组和角色等;

  • 数据处理作业的结果、系统执行日志等;

  • 数据备份、归档人、归档时间等

三、如何建设数据仓库元数据管理?

由于元数据包含极广,我们在建立元数据管理系统的时候,绝对不能盲目追求大而全、一步到位,要坚持目标驱动的原则,在实施的时候要采取增量式、渐进式的建设原则。具体的建设步骤如下:

  1. 在建设数据仓库系统的初期,只需确定源系统的元数据构成和 数仓我们想要实现的元数据内容:比如,我们只想通过元数据来管理数据仓库中数据的转换过程,以及有关数据的抽取路线,以使数据仓库开发和使用人员明白仓库中数据的整个历史过程。

  1. 确定源系统和元数据构成后,先将源系统的元数据整理并记录,可以用文档记录;也可以存入关系型数据库中。

  1. 随着数据仓库系统的建设,逐步将需要的元数据补充录入——例如 DM 的语义层、ETL 的同步规则。

  1. 数据仓库建设完成后,对元数据进行结构化、标准化储存。

总之,建立元数据管理系统一定要坚持关注标准,又不被标准所束缚的原则,建立符合自身目标的元数据管理系统。

四、元数据的应用场景

1、数据资产地图

按数据域对企业数据资源进行全面盘点和分类,并根据元数据字典自动生成企业数据资产的全景地图。该地图可以告诉你有哪些数据,在哪里可以找到这些数据,能用这些数据干什么。

数据资产地图支持以拓扑图的形式可视化展示各类元数据和数据处理过程,通过不同层次的图形展现粒度控制,满足业务上不同应用场景的图形查询和辅助分析需要。

整体可以分为三部分

第一部分汇总库、表的数量,自己负责和有权限的表的数量等等。

第二部分,展示这个库下所有表的情况。包括表名、数据量、更新时间、最近使用次数等,

第三部分,展示所有表的技术、业务的元数据。包括描述、负责人、大小、分区数、建表和更新时间、最近使用次数、变更记录、使用记录等。

2、血缘分析

元数据血缘分析会告诉你数据来自哪里,经过了哪些加工。其价值在于当发现数据问题时可以通过数据的血缘关系追根溯源,快速定位到问题数据的来源和加工过程,减少数据问题排查分析的时间和难度。

基于血缘关系可以做很多事情,例如:

1、结合任务完成时间,根据路径,定位性能瓶颈,调节任务时间以便更好的调节性能;

2、设计监控,当表出现变更时,可以通知任务负责人;

3、方便管理表,可以快速找到没有被使用的表; 数据生命周期管理

4、辅助维护字段的一致性,如注释、校验规则复用。

3、元数据影响分析

元数据影响分析会告诉你数据去了哪里,经过了哪些加工。其价值在于当发现数据问题时可以通过数据的关联关系向下追踪,快速找到有哪些应用或数据库使用了这个数据,从而最大限度地减小数据问题带来的影响。这个功能常用于数据源的元数据变更对下游ETL、ODS、DW等应用的影响分析。

4、元数据冷热度分析

元数据冷热度分析会告诉你哪些数据是企业常用数据,哪些数据属于僵死数据。其价值在于让数据活跃程度可视化,让企业中的业务人员、管理人员都能够清晰地看到数据的活跃程度,以便他们更好地驾驭数据,处置或激活僵死数据,从而为数据的自助式分析提供支撑。

5、元数据关联度分析

元数据关联度分析会告诉你数据与其他数据的关系,以及它们的关系是怎样建立的。关联度分析是从某一实体关联的其他实体及其参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,如表与ETL程序、表与分析应用、表与其他表的关联情况等,从而进一步了解该实体的重要程度。

6. 元数据接口

建立元数据查询、访问的统一接口规范,以将企业核心元数据完整、准确地提取到元数据仓库中进行集中管理和统一共享。

元数据接口规范主要包括接口的编码方式、接口响应、接口协议、接口安全、连接方式、技术实现、调用方式、报文格式等方面的内容。

五、总结

元数据管理系统,是对一家公司数据更高的考验,想要搭建成功,至少满足以下条件:

  1. 整个公司数据的集成——数据仓库的搭建

  1. 整个公司业务流程的完善——"业务中台"的实现

  1. 整个公司技术开发的统一——"技术中台"的实现

如果说数据仓库是数据的集成,那元数据管理系统就是整个公司业务、技术、管理的统一。

六、面试

数据治理有参与吗?你们公司的元数据是怎样进行管理的?

基于Hive元数据做了可视化,用于整理数据链路,方便查询表的结构,字段流向,以及口径,权限等问题

你可能感兴趣的:(数据中台,数据仓库,大数据面试,数据仓库,数据库,大数据)