Apache Atlas 1.2.0 部署手册

参考:http://atlas.apache.org/1.2.0/InstallationSteps.html

说明:本手册基于集群已有组件HBase和ElasticSearch,不使用内嵌的HBase和Solr。

依赖:

  • Maven 3.0+,Maven下载地址:http://maven.apache.org/download.cgi
  • JDK 1.8+
  • 集群已有组件:
    1. HBase
    2. ElasticSearch

1、下载

官网下载地址:http://atlas.apache.org/Downloads.html

2、下载Apache Atlas源码

下载Apache Atlas源码

tar xvfz apache-atlas-${project.version}-sources.tar.gz

cd apache-atlas-sources-${project.version}/

export MAVEN_OPTS="-Xms2g -Xmx2g"

mvn clean -DskipTests install

3、备份并修改配置文件

配置文件地址apache-atlas-sources-${project.version}/distro/target/conf/atlas-application.properties

备份并修改配置文件

1

2

3

cd apache-atlas-sources-${project.version}/distro/target/conf/

cp atlas-application.properties atlas-application.properties.bak

vi atlas-application.propertie

待修改的配置项如下,其他配置项可以是默认值,这里需要注意的是,搜索引擎使用ElasticSearch,需要将配置文件中与Solr相关的配置项都注释掉。

待修改的配置项

#Atlas rest地址及端口,默认http://localhost:21000

atlas.rest.address=http://hadoop160:21001

#Atlas http端口,默认21000

atlas.server.http.port=21001

#指定后端存储为Hbase

atlas.graph.storage.backend=hbase

#zookeeper集群地址,用于连接Hbase,如:hadoop160,hadoop161,hadoop162

atlas.graph.storage.hostname=

#Hbase中用于存储数据的表名

atlas.graph.storage.hbase.table=atlas

 

#指定搜索引擎为ES,启用ES相关配置

atlas.graph.index.search.backend=elasticsearch

#ES的地址,如:10.18.18.181,10.18.18.182,10.18.18.183

atlas.graph.index.search.hostname=<hostname(s) of the Elasticsearch master nodes comma separated>

atlas.graph.index.search.elasticsearch.client-only=true

 

#以下配置项为Hive Hook Bridge所需,如果原配置文件没有,可以手动添加

# whether to run the hook synchronously. false recommended to avoid delays in Hive query completion. Default: false

atlas.hook.hive.synchronous=false

# number of retries for notification failure. Default: 3

atlas.hook.hive.numRetries=3

# queue size for the threadpool. Default: 10000

atlas.hook.hive.queueSize=10000

 

# clusterName to use in qualifiedName of entities. Default: primary

atlas.cluster.name=primary

# Zookeeper connect URL for Kafka. Example: localhost:2181

atlas.kafka.zookeeper.connect=

# Zookeeper connection timeout. Default: 30000

atlas.kafka.zookeeper.connection.timeout.ms=30000

# Zookeeper session timeout. Default: 60000

atlas.kafka.zookeeper.session.timeout.ms=60000

# Zookeeper sync time. Default: 20

atlas.kafka.zookeeper.sync.time.ms=20

4、编译

编译Apache Atlas

mvn clean -DskipTests package -Pdist

编译成功之后会在apache-atlas-sources-${project.version}/distro/target/路径下看到如下文件及文件夹:

Apache Atlas 1.2.0 部署手册_第1张图片

5、启动Apache Atlas

在apache-atlas-sources-${project.version}/distro/target/路径下已经有解压过的apache-atlas-${project.version}-server,无需按照官网说明再次解压。

另外,如果觉得apache-atlas-${project.version}-server路径太深,可以构建该路径的软连接,但是不要将apache-atlas-${project.version}-server文件夹复制到别的地方。

启动Apache Atlas

#构建软连接

cd /opt

ln -s /distro/target/apache-atlas-${project.version}-server/apache-atlas-${project.version} atlas

#通过软连接访问

cd /opt/atlas/bin

./quick_start.py

  Enter username for atlas :-

  Enter password for atlas :-

默认的用户名密码为:admin/admin

6、检查启动情况:

(1)web页面:(我将默认端口21000改成了21001)

http://hadoop160:21001

Apache Atlas 1.2.0 部署手册_第2张图片

Apache Atlas 1.2.0 部署手册_第3张图片

(2)HBase

在HBase中可以看到配置文件中指定的Hbase表

Apache Atlas 1.2.0 部署手册_第4张图片

(3)ElasticSearch

在ES中应该可以看到janusgraph相关的索引

Apache Atlas 1.2.0 部署手册_第5张图片

(4)如果配置了Hive Hook Bridge相关配置,还可以查看Kafka中的topic

查看Kafka Topic

# /opt/cloudera/parcels/KAFKA/bin为Cloudera中Kafka的安装路径

cd /opt/cloudera/parcels/KAFKA/bin

./kafka-topics --zookeeper hadoop160:2181,hadoop161:2181,hadoop162:2181 --list

Apache Atlas 1.2.0 部署手册_第6张图片

Apache Atlas Hive Hook&Bridge配置方法:

https://blog.csdn.net/xueyao0201/article/details/94310583

 

 

 

你可能感兴趣的:(Apache,Atlas,大数据,CDH)