【大数据之路】数据管理篇 《一》元数据 【搬运小结】

文章目录

  • 【大数据之路】数据管理篇 《一》元数据
    • 1 元数据概述
      • 1.1元数据定义
      • 1.2元数据价值
      • 1.3统一元数据体系建设
    • 2 元数据应用
      • 2.1 Data Profile
      • 2.2元数据门户
      • 2.3应用链路分析
      • 2.4数据建模
      • 2.5驱动ETL开发

【大数据之路】数据管理篇 《一》元数据

1 元数据概述

1.1元数据定义

元数据(Metadata)是关于数据的数据。数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。在数据仓库系统中,元数据可以帮助数据仓库管理员和开发人员非常方便地找到他们所关心的数据,用于指导其进行数据管理和开发工作,提高工作效率。

将元数据按用途的不同分为两类: 技术元数据(Technical Metadata) 和业务元数据 (Business Metadata)

技术元数据是存储关于数据仓库系统技术细节的数据 , 是用于开发和管理数据仓库使用的数据。
业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够 “读懂"数据仓库中的数据。阿里巴巴常见的业务元数据有:OneData元数据

1.2元数据价值

在数据管理方面为集团数据提供在计算、存储、成本、质量、安全、模型等治理领域上的数据支持。例如在计算上可以利用元数据查找超长运行节点,对这些节点进行专项治理,保障基线产出时间。

在数据内容方面为集团数据进行数据域、数据主题、业务属性等的提取和分析提供数据素材。例如可以利用元数据构建知识图谱,给数据打标签,清楚地知道现在有哪些数据

1.3统一元数据体系建设

元数据的质量直接影响到数据管理的准确性。对元数据做分类,如计算元数据、存储元数据、质量元数据等,减少数据重复建设,保障数据的唯一性。丰富表和字段使用说明,依据OneData规范,建设元数据基础宽表,打通从数据产生到消费整个链路,不断丰富中间层数据。基于元数据中间层,对外提供标准统一的元数据服务出口,保障元数据产出的质量。

2 元数据应用

2.1 Data Profile

Data Profile 实际承担的是为元数据 “ 画像 " 的任务
Data Profile共有四类标签,就像我们可以为用户的网购行为打上不同的行为标签一样。
基础标签 : 针对数据的存储情况、访问情况、安全等级等进行打标。
数仓标签 : 针对数据是增量还是全量、是否可再生、数据的生命周期来进行标签化处理。
业务标签 : 根据数据归属的主题域、产品线、业务类型为数据打上不同的标签。
潜在标签:这类标签主要是为了说明数据潜在的应用场景,比如社交、 媒体、广告、 电商 、 金融等。
利用Data Profile,不仅可以节约研发人员的时间成本,同时对阿里巴巴内部的非研发人员来说,也可以更直观地理解数据、利用数据,从而提升数据的研发效率。

2.2元数据门户

“前台"产品为数据地图,定位消费市场,实现检索数据、理解数据等“找数据"需求;
“后台"产品为数据管理,定位于一站式数据管理,实现成本管理、安全管理、质量管理等。

2.3应用链路分析

通过应用链路分析,产出表级血缘、字段血缘和表的应用血缘。常见的应用链路分析应用主要有影响分析、重要性分析、下线分析、链路分析、寻根溯源、故障排查等。

2.4数据建模

传统的数据仓库建模一般采用经验建模的方式,效率较低且不准确。基于现有底层数据已经有下游使用的情况,我们可以通过下游所使用的元数据指导数据参考建模。通过元数据驱动的数据仓库模型建设,可以在一定程度上解决此问题,提高数据仓库建模的数据化指导,提升建模效率。
所使用的元数据主要有:
表的基础元数据,包括下游情况、查询次数、关联次数、聚合次数、产出时间等。

表的关联关系元数据,包括关联表、关联类型、关联字段、关联次数等。

在星形模型设计过程中,可能类似于如下使用元数据。
基于下游使用中关联次数大于某个阈值的表或查询次数大于某个阈值的表等元数据信息,筛选用于数据模型建设的表。
基于表的字段元数据,如字段中的时间字段、字段在下游使用中的过滤次数等,选择业务过程标识字段。
基于主从表的关联关系、关联次数,确定和主表关联的从表。
基于主从表的字段使用情况,如字段的查询次数、过滤次数、关联次数、聚合次数等,确定哪些字段进入目标模型。

2.5驱动ETL开发

通过元数据,指导ETL工作,提高ETL的效率。
我们可以通过Data Profile得到数据的下游任务依赖情况、最近被读写的次数、数据是否可再生、每天消耗的存储计算等,这些信息足以让我们判断数据是否可以下线;如果根据一些规则判断可以下线,则会通过OneClick触发一个数据下线的工作任务流,数据Owner可能只需要点击提交按钮,删除数据、删除元数据、下线调度任务、下线DQC 监控等一系列操作就会自动在后台执行完成。

你可能感兴趣的:(【大数据之路】数据管理篇,大数据,数据仓库,数据挖掘)