Atlas学习笔记

背景介绍

随着网络与信息科技的飞速发展,数据的量级在不断增长,迎来大数据时代。这么多的数据资产应当如何管理,如何从海量数据中找到分析所需要的合适数据集,大数据治理应运而生。元数据(metadata)是关于数据的组织、数据域及其关系的信息,简单来说,元数据就是被用来描述数据的数据。因此元数据管理是数据治理中的核心部分,Apache Atlas是一个可伸缩和可扩展的元数据管理工具。它的设计目的为了与其他大数据系统组件交换元数据,改变以往标准各异、各自为战的元数据管理方式,构建统一的元数据库与元数据定义标准,并目与Hadoop生态系统中各类组件相集成,建立统一、高效且可扩展的元数据管理平台。

Apache Atlas提供了大数据治理中可扩展的核心治理服务,具体包括:
1)元数据交换:允许从当前的组件导入已存在的元数据或模型到Atlas中,也允许导出元数据到下游系统中。
2)数据血缘:Atlas在平台层次上,针对Hadoop组件抓取数据血统信息,并根据数据血缘间的关系构建数据的生命周期,对数据血缘的追溯达到了字段级别。
3)数据生命周期可视化:通过Web服务将数据生命周期以可视化的方式展现。

4)快速数据建模:支持各种元数据类型,且Atlas内置的类型系统允许通过继承已有类型的方式来自定义元数据结构,以满足新的需求。
5)丰富的API:提供了目前比较流行目灵活的方式,能够对Atlas服务,HDP(Horton
work DataPlatform)组件、UI及外部组件进行访问。

1、整体架构简介

Atlas学习笔记_第1张图片

Metadata Sources(元数据源)

目前,Atlas支持从以下来源提取和管理元数据:HBase 、Hive、Sqoop、Storm、Kafka。Atlas中定义了原生的元数据模型来表示这些组件的各种对象;Atlas中提供了相应的模块从这些组件中导入元数据对象。

Apps(应用)

Admin UI(Atlas管理界面):作为其中的一个应用是基于WebUI方式的,它允许管理员与数据科学家发现元数据信息和添加元数据注解。在诸多主要的功能中,Atlas提供了搜索接口与类SQL语言,这些特性在Atlas的架构中扮演着十分重要的角色,它们能够被用于查询Atlas中的元数据类型和对象。另外,该管理界面使用Atlas的Rest API来构建它的功能。
Ranger Tag Based Policies(基于各种策略的标签验证权限管理模块):对于整合了诸多Hadoop组件的Hadoop生态系统, ApacheRanger是一个高级安全解决方案。通过与Atlas整合,Ranger允许管理员自定义元数据的安全驱动策略来对大数据进行高效的治理。当元数据库中的元数据发生改变时Atlas会以发送事件的方式通知Ranger。
Business Taxonomy(商业业务分类):从各类元数据源中导入Atlas的元数据以最原始的形式存储在元数据库中,这些元数据还保留了许多技术特征。为了加强挖掘与治理大数据的能力,Atlas提供了一个商业业务分类接口,允许用户对其商业领域内的各种术语建立一个具有层次结构的术语集合,并将它们整合成能够被Atlas管理的元数据实体。商业业务分类这一应用,目前是作为Atlas管理界面的一部分而存在的,它通过Rest API来与Atlas集成。

Integration(集成交互模块)

Atlas提供了两种方式供用户管理元数据。

  1. API:Atlas的所有功能都可以通过Rest API的方式暴露给用户,以便用户可以对Atlas中的类型和实体进行创建、更新和删除等操作。同时,Rest API也是Atlas中查询类型和实体的主要机制。
  2. Messaging消息系统:除了Rest API,用户可以选择基于Kafka的消息接口来与Atlas集成。这种方式有利干与Atlas进行元数据对象的交换,也有利于其他应用对Atlas中的元数据事件进行获取和消费。当用户需要以一种松耦合的方式来集成Atlas时,消息系统接口变得尤为重要,因为它能提供更好的可扩展性和稳定性。在Atlas中,使用Kafka作为消息通知的服务器,从而使得上游不同组件的钩子(HOOK)能够与元数据事件的下游消费者进行交互。这些事件被Atlas的钩子所创建,并冠以不同的Kafka主题。

Core(核心模块)

在Atlas的架构中,其核心组成部分为其核心功能提供了最为重要的支持。

  1. TypeSystem类型系统:ApacheAtlas允许用户根据自身需求来对元数据对象进行建模。这样的模型由被称为“类型”(Type)的概念组成,类型的实例被称为“实体”(Entity),实体能够呈现出元数据管理系统中实际元数据对象的具体内容。同时,Atlas中的这一建模特点允许系统管理员定义具有技术性质的元数据和具有业务性质的元数据,这也使得在Atlas的两个特性之间定义丰富的关系成为可能。
  2. Ingest/Export导入/导出:Atlas中的导入模块允许将元数据添加到Atlas中,而导出模块将元数据的状态暴露出来,当状态发生改变时,便会生成相应的事件。下游的消费者组件会获取并消费这一事件,从而实时地对元数据的改变做出响应。
  3. GraphEngine图引擎:在Atlas内部,Atlas使用图模型(一种数据结构)来表示元数据对象,这一表示方法的优势在干可以获得更好的灵活性,同时有利干在不同元数据对象之间建立丰富的关系。图引警负责对类型系统中的类型和实体进行转换,并与底层图模型进行交互。除了管理图对象,图引擎也负责为元数据对象创建合适的索引,使得搜索元数据变得更为高效。
  4. Titan:目前,Atlas使用Titan图数据库来存储元数据对象。Titan图数据库使用两个数据库来存储数据,分别是元数据库和索引数据库。默认情况下,元数据库使用 HBase,索引数据库使用Solr。同时,Atlas也允许更改相应配置文件,将BerkelevDB和 ElasticSearch作为其元数据库和索引数据库。元数据库的作用是存储元数据,而索引数据库的作用是存储元数据各项属性的索引,从而提高搜索的效率。

2、类型系统、图形引擎与词汇表

类型系统

类型系统作为Atlas中的一个重要组件,允许用户定义与管理各种类型与实体。对于 Atlas自身系统之外的所有元数据对象(例如Hive表格),也是通过类型来进行建模的,然后以实体的方式来呈现。为了在Atlas中存储一种新的元数据类型,有必要清楚地了解类型系统这一概念。

(1)类型

在Atlas中,类型这一概念表征了一类特别的元数据对象是以怎样的方式来存储和访问的。具体来说,一个类型表示一个或一系列属性,这些属性定义了元数据对象的各种特性。在Atlas中的类型与面向对象编程中的“类”(Class)有着十分相似的地方,与关系型数据库中的表模式(Tableschema)也有相似之处。在Atlas中,类型是通过属性name进行唯一标识的;每一种类型都包含一种元型(Metatype),用来表示其在Atlas中的建模类型。在 Atlas中主要有4类元型。
基本元型,例如Int、String Boolean等。
枚举元型。
集合元型,例如Array、Map。
复合元型,例如Class、StructTrait等。
类型可以通过继承的方式从父类型(Supertype)处获得在父类型中定义的所有属性。这一机制使得用户可以将相关联的类型的共有属性抽取出来定义为新的类型。这与面向对象语言中的定义父类十分类似。同时,在Atlas中也支持多继承。元型为Class Struct或Trait的类型可以拥有一系列的属性,每一个属性都有属性名,可以通过“类型名 . 属性名”的方式来调用这些属性。需要注意的是,属性本身也是通过 Atlas元型来定义的。

Atlas允许用户通过“类型名属性名”的方式来调用属性,这使得用户可以在两种类型之间定义任意的关系并建立丰富的模型。需要注意的是,类型中的属性也可以是某个类型的集合。在本例中,hivetablecolumns表示的是类型hivetable中由类型hivecolumn组成的列表。

(2)实体
Atlas中的实体是指一个具体的值或者一个Class类的实例,因此,它表示了现实世界中的某一个具体的元数据对象。类似地,在面向对象语言中,一个实例是指一个类的对象。

从上面这一例子中可以看到:
1)实体作为每一个Class类型的实例,通过GUID来唯一地标识。当对象被建立时, GUID由Atlas服务器产生,并且与实体的生命周期保持一致。无论何时,只要通过GUID用户都可以访问任何特定的实体。
2)每一个实体都属于某一类型,并且需要在实体的定义中指明具体类型的名称。
3)实体的值是指由属性与属性值组成的map,这些属性在实体所属的类型中定义。                        4)实体中每一个属性值的类型是由其属性的元型来决定的。

(3)属性
通过上文的介绍可知,属性是被定义在诸如Class和Struct等元型之中的,并且属性可能会被简单地认为仅仅只有名字和元型的值。但是,在Atlas中的属性还具有其他更多的特性,其作用是定义更多的概念来与类型系统关联。

一个属性通常有如下特性:

name:string
dataTypeName:string                                                                                                isComposite:boolean                                                                                                  isIndexable:boolean                                                                                                        isUnique:boolean                                                                                                                multiplicity:enum
reverseAttributeName:string

这些特性的含义如下。
1)name:表示属性的名字。
2)dataTypeName:表示属性的元型名称(包括原生元型 集合元型和复合元型)。
3)isComposite:
如果某一属性被定义为composite,表示该属性不能独立于包含它的实体而存在。在hivetable的例子中,属性columns很好地说明了该特性的含义。因为属性 columns作为hivetable的一部分,且不能独立于hivetable而存在,所以属性 columns被定义为composite的属性。
对于某一composite属性,它必须随着包含它的实体的创建而创建。例如一个 hivecolumn必须随hivetable的创建而创建。
4)isIndexable:表示该属性能否支持索引。当支持索引时,能够通过属性值来进行查找,从而提高查找效率。                                                                                                                          5)isUnique:
该特性也与索引有关,表示属性是否唯一。属性被定义为唯一时,表示该属性在 Titan图数据库中会建立唯一的索引。
当某属性的这一特性被设置为true时,该属性将为作为实体的主键(Primary Key),从而与其他实体相区别。因此,在建模时要确保现实世界中的某属性是唯一的,才能将该属性的这一特性设置为true。
6)multiplicity:表示该属性是必需的还是可选的,可或者是两者皆可的。在创建某一实体时,如果该实体的属性的multiplicity不符合该特性在类类型中的声明,那么将导致该实体创建失败。因此,这一特性被用于定义一些针对元数据的约束条件。
从上面的描述能够了解到,属性的定义可以影响具体的建模行为,包括索引、各类约束等。
(4)系统预置类型及其意义
Atlas自带了一些预置的系统类型,下面将会介绍一些预置的系统类型,以及它们的意义。

  1. Referenceable:该类型包含了能够通过唯一的属性来搜索的实体,这些唯一的属性被称为qualifiedName。
  2. Asset:该类型包含name、description和owner等属性,其中name是一个必备的属性(multiplicity=required),而其他属性是可选的。Refere ceable和Asset类型的意义在于,使得用户在定义与查询实体时,强化实体的一致性。
  3. Infrastructure:该类型继承自Referenceable和Asset,它的主要作用是被作为基础设施元数据对象的共同父类型,这些元数据对象包括cluster host等。
  4. DataSet:该类型继承自Referenceable和Asset。从概念上说,它被用于表示一个能够存储数据的类型。在Atlas中hivetable和SaoopRDBMStable等类型都是继承自DataSet的。继承自DataSet的类型都有一个Schema,从某种意义上说,这些类型可以通过拥有一个属性来定义DataSet的若干属性。例如,hivetable中的columns属性就是这样。另外,继承自DataSet的类型的实体可以参与数据的变换,并且这种变换能够被Atlas的血统图获取。
  5. Process:该类型继承自Referenceable和Asset,从概念上说,它被用于表示任何一个数据变换操作。例如,对于一个将某一HiveTable转换为另一个HiveTable的ETL过程来说,该过程可以用一个继承自Process的类来表示。Process类型拥有两个具体的属性分别是inputs和outputs,inputs和outputs都是由DataSet的实体所组成的数组。因此 Process类型的实例能够通过输人和输出来获取DataSet的血缘。

图形引擎

Atlas在内部使用Graph模型持久保存它管理的元数据对象。这种方法提供了很大的灵活性,可以有效地处理元数据对象之间的丰富关系。图形引擎组件负责在Atlas类型系统的类型和实体之间进行转换,以及底层图形持久性模型。除了管理图形对象之外,图形引擎还为元数据对象创建适当的索引,以便可以有效地搜索它们。Atlas使用JanusGraph存储元数据对象。

词汇表

词汇表为业务用户提供了适当的词汇,它允许术语(单词)相互关联并进行分类,以便可以在不同的上下文中理解它们。然后,可以将这些术语映射到数据库、表、列等资产。这有助于抽象出与存储库相关的技术术语,并允许用户用他们更熟悉的词汇来发现/处理数据。

使用场景

使用自然术语(技术术语和/或业务术语)来定义丰富的词汇表的能力。
能够在语义上将术语相互联系起来。
能够将资产映射到词汇表术语。
能够按类别组织这些术语。这为术语增加了更多的背景。
允许类别按层次排列--以表达更广泛和更精细的范围。
将词汇表术语的管理与元数据分开。

3、分类传播与高可用性

分类传播使与一个实体相关的分类能够自动与该实体的其他相关实体相关联。这在处理一个数据集从其他数据集派生出数据的情况下非常有用--比如用文件中的数据加载的表,从一个表/视图生成的报告等。
例如,当一个表被归类为PII时,从该表派生数据的表或视图(通过CTAS或 "创建视图 "操作)将被自动归类为PII。

案例演示,
考虑以下数据路径,来自'hdfs_path'实体的数据被加载到一个表中,并进一步通过视图提供。我们将通过各种场景来了解分类传播的特点。

Atlas学习笔记_第2张图片

向实体添加分类

将分类“PII”添加到“hdfs_path”实体时,分类将传播到沿袭路径中所有受影响的实体,包括“员工”表、视图“us_employees”和“uk_employees” - 如下所示。

Atlas学习笔记_第3张图片

更新与实体关联的分类

Atlas学习笔记_第4张图片

删除与实体关联的分类,该分类也将从分类传播到的所有实体中删除。

为一个实体添加分类

当分类 "PII "被添加到 "hdfs_path "实体中时,该分类被传播到行径路径中所有受影响的实体,包括 "employees "表、视图 "us_employees "和 "uk_employees" - 如下所示。

Atlas学习笔记_第5张图片

删除实体

案例1:删除实体时,与此实体关联的分类将从分类传播到的所有实体中删除。例如。删除employee表时,与此表关联的分类将从“employees_view”视图中删除。

Atlas学习笔记_第6张图片

案例2:当一个实体在血缘路径的中间被删除时,传播链接就会中断,之前传播的分类将从被删除实体的所有派生实体中删除。例如,当'us_employees'表被删除时,通过该表传播的分类(PII)将从'ca_employees'表中删除,因为唯一的传播路径被实体的删除所破坏。

Atlas学习笔记_第7张图片

Atlas学习笔记_第8张图片

案例3:当一个实体在血缘路径的中间被删除,如果存在替代的传播路径,那么之前传播的分类将被保留。例如,当'us_employees'表被删除时,通过该表传播的分类(PII)被保留在'ca_employees'表中,因为有两条传播路径可用,而且只有一条被实体的删除所破坏。

Atlas学习笔记_第9张图片

Atlas学习笔记_第10张图片

控制传播

在分类中的传播标志

分类与实体的每个关联都有一个布尔标志,用于控制是否传播分类。当分类与实体关联时,此标志设置为“true”,即分类将传播到所有受影响的实体。此标志可以在初始关联期间或以后更新为所需值。

在血缘谱系的传播标志

Apache Atlas支持在谱系边缘设置一个标志,以启用/禁用分类在边缘的传播。默认情况下,行式边缘的传播是启用的。当该标志关闭时,没有分类将通过该边缘传播;而当前通过该边缘传播的分类将被重新评估,以便它们可以从受影响的实体中删除。当该标志被打开时,源实体的分类的传播将被重新评估,以便它们可以被传播到所有受影响的实体。

阻止特定分类在血缘谱系中的传播

Apache Atlas支持阻断特定分类在血缘谱系中的传播。例如,这对于处理以下情况非常有用:在创建视图时,分类为PII的列被屏蔽;在这种情况下,如果创建视图中的相应列可能没有PII,则应阻止 PII 分类的传播。这可以通过更新谱系边缘以在“阻止的传播分类”列表中添加PII分类来完成。被阻止传播的分类中的分类不会在衍生品/下游实体中传播。

通知和审核

当添加/更新/删除传播的分类时,Apache Atlas会向受传播影响的每个实体的“ATLAS_ENTITIES”主题发送通知。

当分类与词汇表术语相关联时,该分类将自动传播到与该术语关联的所有实体。

高可用性

Apache Atlas使用各种系统并与之交互,为数据管理员提供元数据管理和数据沿袭。通过适当地选择和配置这些依赖关系,可以使用Atlas实现高度的服务可用性。本文档介绍 Atlas 中高可用性支持的状态,包括其功能和当前限制,以及实现此级别的高可用性所需的配置。

Atlas网络服务

目前,Atlas网络服务有一个限制,即每次只能有一个活动实例。在Atlas的早期版本中,可以配置一个备份实例并保持其可用性。然而,要使这个备份实例处于活动状态,需要进行手动故障切换。

从这个版本开始,Atlas将支持主动/被动配置中的多个Atlas网络服务实例,并具有自动故障切换功能。这意味着,用户可以在不同的物理主机上同时部署和启动多个Atlas网络服务实例。这些实例中的一个将被自动选择为 "主动 "实例,为用户请求提供服务。其他的将自动被视为 "被动"。如果 "主动 "实例由于被故意停止,或由于意外的故障而变得不可用,其他实例之一将自动被选为 "主动 "实例,并开始为用户请求提供服务。

一个 "活动 "实例是唯一能够正确响应用户请求的实例。它可以创建、删除、修改或响应对元数据对象的查询。一个 "被动 "实例将接受用户请求,但会使用HTTP重定向将其重定向到当前已知的 "主动 "实例。具体来说,一个被动的实例本身不会对元数据对象的任何查询做出响应。然而,所有的实例(包括活动的和被动的),将对返回有关该实例信息的管理请求作出响应。

当配置为高可用性模式时,用户可以获得以下操作优势。

在维护间隔期间提供不间断的服务。如果Atlas网络服务的一个活动实例需要停机维护,另一个实例将自动成为活动实例,可以为请求提供服务。
在发生意外故障的情况下提供不间断的服务。如果Atlas网络服务的一个活动实例由于软件或硬件错误而发生故障,另一个实例将自动成为活动实例,并能为请求提供服务。

在Atlas中设置高可用性功能

Atlas 高可用性的实施细节

Atlas高可用性工作是在master JIRA ATLAS-510下跟踪的。在它下面的JIRAs包含关于如何实现高可用性功能的详细信息。

自动选择一个活跃实例,以及自动故障切换到一个新的活跃实例是通过领导者选举算法实现的。
对于领导者的选举,我们使用Apache Curator的Leader Latch Recipe。
活跃实例是唯一一个初始化、修改或读取后端存储的状态,以保持它们的一致性。
当一个实例被选为活跃的时候,它会刷新任何来自后端存储的缓存信息,以获得最新的信息。
servlet过滤器确保只有活跃实例为用户请求提供服务。如果一个被动实例收到这些请求,它会自动将它们重定向到当前的活跃实例。

元数据存储

如上所述,Atlas使用JanusGraph来存储其管理的元数据。默认情况下,Atlas使用一个独立的HBase实例作为JanusGraph的备份存储。为了给元数据存储提供HA(高可用性),我们建议将Atlas配置为使用分布式HBase作为JanusGraph的支持存储。这样做意味着你可以从HBase提供的HA保证中获益。为了将Atlas配置为在HA模式下使用HBase,请执行以下操作。

选择一个在HA模式下设置的现有HBase集群,在Atlas中进行配置(或者)在HA模式下设置一个新的HBase集群。
如果为Atlas设置HBase,请遵循安装步骤中列出的设置HBase的说明。
我们建议在使用Zookeeper进行协调的不同物理主机上的集群中使用一个以上的HBase主站(至少2个),以提供HBase的冗余和高可用性。

索引存储

Atlas 通过 JanusGraph 索引元数据以支持全文搜索查询。为了给索引存储提供高可用性,我们建议将 Atlas 配置为使用 Solr 或弹性搜索作为 JanusGraph 的支持索引存储。

通知服务器

来自Hooks的元数据通知事件被发送到Atlas,将它们写入一个名为ATLAS_HOOK的Kafka主题。同样地,从Atlas到其他集成组件(如Ranger)的事件也被写入一个名为ATLAS_ENTITIES的Kafka主题。因为Kafka会持久化这些消息,所以即使消费者在发送事件的时候出现故障,事件也不会丢失。此外,我们建议对Kafka也进行容错设置(设置主题副本数,主题至少为2实现冗余),这样它就有更高的可用性保证。

4、rest api和massaging

5、元数据源集成

6、基本搜索

你可能感兴趣的:(学习)