开源元数据治理平台Datahub部署指南(小白版)

1.引言

datahub是做什么的,这里就不展开描述了, 如果想了解更多请自行阅读DataHub官网文档, 这里主要教大家如何一步一步安装然后100%部署完成。一般开源产品的文档都是被大家吐槽的最多的,部署步骤写的非常简单,重要关键的配置有时候基本都是不提的,很多人想入门, 但是安装部署就会把大多数人拒之门外,很多没耐心的同学一旦掉到坑里爬不出来, 立马就放弃了, 本篇文章的主要目的就在于帮助大家把这一步跨过去,文章对你有帮助,请点赞关注, 不喜勿喷~

2.软件版本要求

  • CentOS == 7.6.18-x86-64
  • datahub == 0.12.0
  • python == 3.8.18
  • docker == 24.0.7
  • docker-compose == 2.20.3

3. 安装过程详解

3.1 Docker安装

请参考我之前的文章进行安装,传送门戳这里 docker的3种常用的安装部署方式介绍演示

考虑docker离线安装的问题, 后续写一篇docker离线部署的文章给大家。

3.2 docker-compose安装

下载并安装, 如果下载不下来, 可以先下载到本地再上传到服务器

curl -SL https://github.com/docker/compose/releases/download/v2.20.3/docker-compose-linux-x86_64 -o /usr/local/bin/docker-compose

修改脚本操作权限

chmod 755 /usr/local/bin/docker-compose

检查docker-compose是否安装成功

在这里插入图片描述

3.3 python3安装

因为datahub0.12.0安装依赖python3, 但是CentOS默认的python版本是python2.7.5,这里需要安装python3,我这里安装的python版本是3.8.18, 下面演示编译安装的整个过程:

1)安装系统依赖

yum install -y zlib-devel bzip2-devel openssl-devel ncurses-devel epel-release gcc gcc-c++ xz-devel readline-devel gdbm-devel sqlite-devel tk-devel db4-devel libpcap-devel libffi-devel

2)首先创建python3的安装目录:

mkdir -p /usr/local/python3

3)下载Python3.8.18的安装包

mkdir -p /opt/packages

cd /opt/packages

wget https://registry.npmmirror.com/-/binary/python/3.8.18/Python-3.8.18.tgz

4)解压安装包

tar -zxf /opt/packages/Python-3.8.18.tgz

5)编译安装

cd /opt/packages/Python-3.8.18

./configure --prefix=/usr/local/python3

make && make install

执行完毕, /usr/local/python3目录如下图:

开源元数据治理平台Datahub部署指南(小白版)_第1张图片
6)配置系统环境变量

ln -s /usr/local/python3/bin/python3.8 /usr/local/bin/python3

ln -s /usr/local/python3/bin/pip3 /usr/local/bin/pip3

如下图:
开源元数据治理平台Datahub部署指南(小白版)_第2张图片
开源元数据治理平台Datahub部署指南(小白版)_第3张图片

检查系统环境变量是否生效, 如下图则成功。

开源元数据治理平台Datahub部署指南(小白版)_第4张图片

python3 -m pip install --upgrade pip

开源元数据治理平台Datahub部署指南(小白版)_第5张图片

3.4 datahub安装

执行安装命令, 如下

python3 -m pip install acryl-datahub==0.12.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

检查datahub是否安装成功

python3 -m pip datahub version

出现如下报错:

开源元数据治理平台Datahub部署指南(小白版)_第6张图片

解决方法:urllib3库版本太高了, 降版本, 重新安装urllib3的1.25.11版本

python3 -m pip install urllib3==1.25.11 -i https://pypi.tuna.tsinghua.edu.cn/simple
开源元数据治理平台Datahub部署指南(小白版)_第7张图片

再次检查datahub是否安装成功,

python3 -m pip datahub version

如下图, 说明安装成功

在这里插入图片描述

开源元数据治理平台Datahub部署指南(小白版)_第8张图片

3.4 datahub镜像下载安装

首先我们从github的datahub仓库下载DataHubv0.12.0版本源代码,解压找到一下docker-compose的编排脚本文件
开源元数据治理平台Datahub部署指南(小白版)_第9张图片
docker-compose-without-neo4j.quickstart.yml脚本上传到服务器的/usr/local/python3/datahub-docker-scripts目录下,如果没有这个路径请自行创建, 创建命令mkdir -p /usr/local/python3/datahub-docker-scripts

进入到/usr/local/python3/datahub-docker-scripts目录下, 执行以下命令:

python3 -m datahub docker quickstart --quickstart-compose-file ./docker-compose-without-neo4j.quickstart.yml

开源元数据治理平台Datahub部署指南(小白版)_第10张图片
经过漫长的镜像下载拉取之后,容器运行成功之后, 整个安装流程完毕如下图:
开源元数据治理平台Datahub部署指南(小白版)_第11张图片

访问http://10.10.3.14:9002,出现如下页面, 说明DataHub安装成功,默认的账号密码如下:

用户名:datahub  

密码:  datahub

开源元数据治理平台Datahub部署指南(小白版)_第12张图片

4.服务管理及使用的常见指令

1)一键启动Datahub

docker-compose -p datahub -f ./docker-compose.consumers-without-neo4j.quickstart.yml up -

2)一键停止Datahub

docker-compose -p datahub -f ./docker-compose.consumers-without-neo4j.quickstart.yml stop

3)查看Datahub插件列表

python3 -m datahub check plugins --verbose

4)安装Datahub插件

pip3 install 'acryl-datahub[数据源]'

举例, 现在需要管理MySQL数据源的元数据, 需要先集成mysql的数据源插件

pip3 install acryl-datahub[mysql]

5.使用演示

配置元数据源集成
开源元数据治理平台Datahub部署指南(小白版)_第13张图片
创建新的元数据源
开源元数据治理平台Datahub部署指南(小白版)_第14张图片
选择数据源类型,配置数据源连接参数,设置采集任务调度, 然后保存即可。
开源元数据治理平台Datahub部署指南(小白版)_第15张图片
点击"RUN"运行采集任务
开源元数据治理平台Datahub部署指南(小白版)_第16张图片
开源元数据治理平台Datahub部署指南(小白版)_第17张图片
开源元数据治理平台Datahub部署指南(小白版)_第18张图片
好了,本篇文章到此结束,如果安装过程中遇到问题,欢迎留言讨论哈,最后点赞关注,送你一朵小红花,谢谢~~~。

你可能感兴趣的:(大数据,开源,元数据,数据治理,大数据)