数据治理篇-元数据: datahub概述

前言. 元数据是数据治理的灵魂

1. 元数据之于数据治理

数据治理是一个庞大的系统,其中主要包括数据管控,数据质量,数据安全,数据标准。
a) 数据管控:
每一项数据变更都能得到明确记录及授权,使得数据系统变得可控,可追溯。
b). 数据质量:
主动检测发现数据异常,禁止系统运行在错误状态造成损失。
c). 数据安全:
随着大数据时代的信息爆炸,数据的安全性开始与个人生活息息相关,任意安全事故对于企业商业运行来说可能都是致命一击。
d). 数据标准:
所有的数据踏上规范化的进程,让所有数据系统建设有着清晰统一的目标。

我们这里主要聚集在数据管控这一块,也就是元数据的应用领域。
当然个人不是数据治专家, 这里仅从技术角度讨论元数据系统。

2. 什么是元数据?

一般来说是数据的数据。
具体来说,就是对动态数据的一种静态信息描述。
数据从本质上来说是二进制的,动态的。
所以,为了理解数据,我们需要数据的数据。

3. 常用的元数据有哪些?

在数据流处理中,我们首先需要定义不同阶段的数据实体,所以有了[模式元数据]。
接着我们需要定义数据实体之间的处理逻辑,叫做etl数据处理,接着有了数据实体的[关系元数据]。
对于这些数据处理的逻辑形式,需要调度器来物理化执行,所以有了[调度元数据]。
数据处理完成之后,需要发布报表,就有了[报表元数据]。
对于整体系统中,会涉及不同的用户实体,就有了[用户元数据]
当然,这些是企业数据平台最常见的元数据类型,其它的大大小小的信息还是有很多。
所以,元数据系统的建立,是企业级的信息化建设过程。

4. 企业数字化建设始于元数据

在互联网热潮下,企业往数据化转型已经是大势所趋,数据治理建设已经被归为企业的重要战略。而信息化建设的重要前提就是元数据。
企业的系统建设过程中,元数据缺失或者没有有效管理,致使无法系统化信息化,只能供人工使用,导致系统信息需要大量人工介入才能有效解密。
所以,企业大量充斥了world, excel, ppt的文档。
各个系统之间存大多份拷贝,多个版本,这些东西只能给人看。不仅人看着费劲,还难搜索,其它信息化系统根本无法使用。
看起来信息越堆越多,其实就是在造垃圾,增加人工劳动力,有效信息使用成本越来越大。
更别提进一步的数据管控,数据治理,信息化建设了。

5. 元数据的使命

对于企业信息化建设来说,我们是不需要关心系统是如何实现的,我们往往想定义它的本质。
这个比较类似于现在流行的配置驱动系统建设,我定义好配置项,然后系统就能按照预期运行。
为了加深理解,我简单举几个例子。
比如SQL就是一种重要的元数据,我们不需要关心底层怎么实现,我们只需要告诉它我们想要的,它就会获取我想要的结果。所以sql是一种有效的元数据,有了sql,我就捕获到了本质。

如果把所有系统的本质捕获到了元数据中,那么通过元数据就能了解并且加快信息化建设。

那么系统的本质到底是什么呢?我们开始下一节

一. 如何构建有效的元数据系统

1. 配制驱动开发

对于常用的系统的系统来说,一个好的系统通过配置文件就能全面了解。
对于etl来说,配置信息就是实体【表结构的定义】以及关系【sql及存储过程】。
对于调度系统来说,配置信息就是实体【作业】以及关系【依赖关系】
对于报表系统来说,配置信息就是实体【指标】以及关系【业务使用】
大部分成熟的系统所以已经提供了非常完善的配置信息接口,所以我们做的就是把信息统一接入并使用起来。
还有一部分系统不成熟,非常依赖于文档与人工。所以要进行改造,变成配置驱动开发。通过配置捕获系统的本质。如果不能进行改造,我们也得将信息进行编码,使得静态信息尽可能在元数据之上的数据管控上进行规范有效操作。

2. 如何制定配置?

系统间的配置一般采用json/avro或者使用sql接口来进行集成。
对于人工的静态配置信息来说,json处理不了多层级复杂关系,建议使用toml/yaml来处理,更加可读,也非常方便集成元数据管理。

这里,我们提到了两种配置类型。一种基本配置类型,一种高级配置类型。
基本配置类型就是数据结构,我们仅仅定义数据结构,比如json/varo/toml/yaml。
还有一种高级配置类型就是DSL,我们开发出一种更抽象更强大的扩展,比如SQL/lisp。
从系统的扩展性来说,DSL表达力更强。所以可以看到,gradle对比maven做扩展就非常有优势。Emacs对比idea就非常有优势。
但是另一方面建设成本较高,但是价值非常大。所以对于数据系统来说,采用SQL高级配置能大大改善元数据的质量。这也是各个系统不遗余力推出SQL高级配置,LISP高级配置的原因。

3. 元数据的开放性

前面讲过,即使企业存在大量元数据,以不同文档形式存在于企业当中。但都是需要人工介入,且无法对接系统进行使用的。
所以元数据的核心价值就在于元数据的开放性。
有了元数据系统,我们可以轻松得搜索信息,展现信息,发布信息。这样a系统的元数据可以供b系统自动化使用,其它系统又可以使用b系统的元数据,最终不断递归下去,形成了一个企业的信息化中心。而这个中心有系统的本质信息,所以整个企业的信息化数据是非常容易理解且使用的。

二. 认识元数据平台

1. 元数据平台简介

现在才开始我们的正题。
市面上常见的元数据管理系统有如下几个:
a) linkedin datahub:
https://github.com/linkedin/datahub
b) apache atlas:
https://github.com/apache/atlas
c) lyft amundsen
https://github.com/lyft/amundsen

当然最成熟的还是linkedin datahub,也是今天的主角。

2. 元数据组件

前面讲过元数据平台的核心在于开放性。

而元数据的主体主要是【实体】以及【关系】。
在datahub里面通过图数据库neo4j来表达这种关系。
主要定义的实体有 【用户,数据集,报表,作业,指标】,开源支持的实体有【用户,数据集】。

为什么需要使用图数据库?
对于同种实体之种的关系,sql数据库非常难以表达。比如用户a跟用户b的关系,就需要自join一次得到信息,而如果这种关系有多级,比如一个数据级的上三层血缘关系,那么关系型就失效了。
对于不同实体间的多种关系,使用sql数据库也是非常麻烦的。即使能做到,也是非常难于理解。而图数据我们仅仅只需要关心实体与关系,通过引擎自动帮我们遍历获取结果。

如何实现数据的搜索?
有了实体关系之后,我们需要进行数据的搜索。在大部分人的认识里面,数据的搜索查询采用的是索引。而索引是不支持多个范围查询的。对于搜索这种类型,有专用的倒排表结果,也就是lucene库。以此之上就有了最成熟的elasticsearch文档数据库。
何为倒排表?一般的数据库是,通过文档id去查数据信息。而倒排表是反向的,通过数据信息去搜索文档。它的原理是对于需要搜索的字段建立倒排表,通过各个字段的组合最终获取文档id。

如何实现数据的存储?
对于最后的数据存储,就比较简单了。
采用postgresql以及mysql这种广泛的数据库都是分分钟支持的事。在datahub里面,对于每个实体信息,它分为了各种aspect切片。比如数据集信息就包括了模式切片,所有者切片等等。
后续将会详细介绍。

3. 元数据架构

在datahub里面,数据通过mce事件进入,进行处理后,生成mae事件。所以它是一个实时系统。
当然大部分人对于元数据的时效性要求不高,觉得实时提升了系统的复杂度。并且实时需要上游系统去主动推才行,实用价值不大。
其实这里是有个错误的理解。
元数据平台不是数据管控平台,它不是一个应用平台,而是一个基础平台,让其它系统扩展并集成使用。
所以,数据管控平台可以很方便的通过订阅mae消息,进行实时变更,并且完全绿色无污染。
我见过不少厂商做元数据系统,想做得非常规范,需要非常强的侵入性,甚至只能使用它们的平台才能操作。
我是非常不认可的。
元数据系统应该是个信息化系统,更大的作用大于信息化上面。不能说有了元数据系统,其它方式就不能用了,这样不是引入了一颗炸弹么?相当于学了一门武功,费了早前的武功,实在是得不偿失。
当然,可以在元数据之上建立数据管控平台,进行数据的管理,但这个也是个助手,而不是将军。

三. 认识datahub

1. datahub 的技术栈

datahub 的技术栈非常特别,具有一定挑战性。
首先datahub包括了四块,metadata, gms, etl, datahub。
medata定义模型,gms基于模型生成服务, etl进行模型数据加工,datahub提供基于gms的元数据应用展现。

metadata这里面使用了两种数据格式。
一种是外部接入格式avro,非常实用。
另一种是内部改进的pdsc格式,那就很头疼了,外面用得很少。

gms使用了内部的rest.li,又是内部搞的一套restful框架,也还比较好用,但是应用面比较窄。

etl则是采用了linkedin家最擅长的kafka schema registry及kafka streams,好评。

datahub包括了应用后台服务以及前台展示。
后台服务采用的是play framework,这个就是比较衰的了。以前linkedin 大力推scala,搞了play framework,结果发展不动,全部切成了java版的。所以java版的web框架也用了play framework。
这东西也不错,就是也不主流了。

对于前台服务采用的是ember.js + typescript。typescript如今如日中天,非常好用。
ember.js 就比较衰了,被angular,react,vue逼上了梁上。
并且这货学习成本也不低。不过linkedin 的ui确实有考究。

对于整个系统构建采用了gradle,个人还是比较喜欢gradle的。
前面已经提到过高级配置dsl扩展性是远远超过配置文件xml的。
所以我更愿意深入学习gradle而不是maven。另一方面高级配置对于集成性会偏弱,需要预留接口给第三方使用。简单配置人人都可以解析。gradle 采用groovy实现,groovy也衰落了,现在gradle切换到kotlin了。照目前趋势,gradle超过maven是必然的趋势。

所以,对于整个技术栈来说:
gradle + es + neo4j + pg + kafka + typescript十分到味。
play framework + rest.li勉强接受。
ember.js + pdsc 则是非常烦人的。

2. datahub/metadata 模块介绍

a) li-utils + metadata-models 定义数据模型

li-utils提供基础的数据结构, metadata-models提供元数据模型
首先看实体定义

larrys-MacBook-Pro:metadata-models larluo$ ls -l ./src/main/pegasus/com/linkedin/metadata/entity
total 20
-rw-r--r-- 1 larluo staff 333 Feb 21 21:59 BaseEntity.pdsc
-rw-r--r-- 1 larluo staff 483 Feb 21 21:59 CorpGroupEntity.pdsc
-rw-r--r-- 1 larluo staff 455 Feb 21 21:59 CorpUserEntity.pdsc
-rw-r--r-- 1 larluo staff 874 Feb 21 21:59 DatasetEntity.pdsc
-rw-r--r-- 1 larluo staff 200 Feb 21 21:59 Entity.pdsc

接着我们看实体关系:

larrys-MacBook-Pro:metadata-models larluo$ ls -l ./src/main/pegasus/com/linkedin/metadata/relationship
total 28
-rw-r--r-- 1 larluo staff 455 Feb 21 21:59 BaseRelationship.pdsc
-rw-r--r-- 1 larluo staff 379 Feb 21 21:59 Contains.pdsc
-rw-r--r-- 1 larluo staff 524 Feb 21 21:59 DownstreamOf.pdsc
-rw-r--r-- 1 larluo staff 240 Feb 21 21:59 IsPartOf.pdsc
-rw-r--r-- 1 larluo staff 488 Feb 21 21:59 OwnedBy.pdsc
-rw-r--r-- 1 larluo staff 222 Feb 21 21:59 Relationship.pdsc
-rw-r--r-- 1 larluo staff 367 Feb 21 21:59 ReportsTo.pdsc

接着看实体数据aspect切片:

larrys-MacBook-Pro:metadata-models larluo$ ls -l ./src/main/pegasus/com/linkedin/dataset
total 48
-rw-r--r-- 1 larluo staff  795 Feb 21 21:59 DatasetDeprecation.pdsc
-rw-r--r-- 1 larluo staff  872 Feb 21 21:59 DatasetKey.pdsc
-rw-r--r-- 1 larluo staff  555 Feb 21 21:59 DatasetLineageType.pdsc
-rw-r--r-- 1 larluo staff 1062 Feb 21 21:59 DatasetProperties.pdsc
-rw-r--r-- 1 larluo staff 1617 Feb 21 21:59 DeploymentInfo.pdsc
-rw-r--r-- 1 larluo staff  622 Feb 21 21:59 Downstream.pdsc
-rw-r--r-- 1 larluo staff  338 Feb 21 21:59 DownstreamLineage.pdsc
-rw-r--r-- 1 larluo staff  389 Feb 21 21:59 DownstreamLineageDelta.pdsc
-rw-r--r-- 1 larluo staff  206 Feb 21 21:59 SchemaFieldPath.pdsc
-rw-r--r-- 1 larluo staff  616 Feb 21 21:59 Upstream.pdsc
-rw-r--r-- 1 larluo staff  328 Feb 21 21:59 UpstreamLineage.pdsc
-rw-r--r-- 1 larluo staff  379 Feb 21 21:59 UpstreamLineageDelta.pdsc

还有外部交互事件:

larrys-MacBook-Pro:metadata-models larluo$ ls -l ./src/main/pegasus/com/linkedin/mxe
total 20
-rw-r--r-- 1 larluo staff  681 Feb 21 21:59 FailedMetadataChangeEvent.pdsc
-rw-r--r-- 1 larluo staff  927 Feb 21 21:59 MetadataAuditEvent.pdsc
-rw-r--r-- 1 larluo staff  946 Feb 21 21:59 MetadataChangeEvent.pdsc
-rw-r--r-- 1 larluo staff 1178 Feb 21 21:59 MetadataGraphEvent.pdsc
-rw-r--r-- 1 larluo staff  672 Feb 21 21:59 MetadataSearchEvent.pdsc

b) metadata-events 在metadata-models上面建立event相关的信息

c)

3. datahub/gms模块介绍

4. datahub/etl模块介绍

5. datahub/datahub模块介绍

你可能感兴趣的:(数据治理篇-元数据: datahub概述)