搭建开源元数据平台DataHub

DataHub是现代数据堆栈的开源元数据平台,旨在实现端到端数据发现、数据可观察性和数据治理。这个可扩展的元数据平台是为开发人员构建的,以适应其快速发展的数据生态系统的复杂性,帮助数据从业者利用其组织内的数据价值。

技术文档:Introduction | DataHub

源码:https://github.com/datahub-project/datahub 

DataHub部署:

1、安装docker、jq和docker-compose v1。确保为Docker引擎分配足够的硬件资源:2 CPU、8GB 内存、2GB Swap 和 10GB 硬盘。

2、启动Docker。

3、安装Python 3.6+

4、安装DataHub CLI

python3 -m pip install --upgrade pip wheel setuptools
python3 -m pip uninstall datahub acryl-datahub || true  # sanity check - ok if it fails
python3 -m pip install --upgrade acryl-datahub
datahub version

DataHub CLI命令:

1、在本地部署DataHub实例

datahub docker quickstart

这将使用docker-compose部署DataHub实例。

完成后,在浏览器中访问http://localhost:9002。使用datahub作为用户名和密码登录。

查看datahub所有支持的选项:

datahub docker quickstart --help

2、采集示例元数据

datahub docker ingest-sample-data

如果启用了元数据服务身份验证,则需要使用命令中的--token 参数提供个人访问Token。

3、停止DataHub

datahub docker quickstart --stop

4、重置DataHub

datahub docker nuke

该命令会清除DataHub的所有状态

5、备份DataHub

datahub docker quickstart --backup

该命令将备份MySQL镜像,并默认将其写入到路径 ~/.datahub/quickstart/backup.sql。

可以通过传递--backup-file参数来自定义备份路径。

datahub docker quickstart --backup --backup-file /home/my_user/datahub_backups/quickstart_backup_2002_22_01.sql

快速启动备份不包含任何时间序列数据(数据集统计信息、配置文件等),如果删除所有索引并从此备份中恢复,将丢失该信息。

6、恢复DataHub

恢复备份(主+索引)

datahub docker quickstart --restore

此命令将提取位于路径 ~/.datahub/quickstart/backup.sql 的文件,并用它恢复主数据库以及弹性搜索索引。

可以通过传递--restore-file参数来自定义备份路径。

datahub docker quickstart --restore --restore-file /home/my_user/datahub_backups/quickstart_backup_2002_22_01.sql

仅恢复索引[处理索引不同步/损坏问题]

如果索引损坏,或者缺少一些更新。为了从主存储区重新启动索引,您可以运行此命令将索引与主存储区同步。

datahub docker quickstart --restore-indices

仅恢复主备份(无索引)

如果只想恢复主数据库(MySQL)的状态,但不想重新索引数据。则必须显式禁用还原索引功能。

datahub docker quickstart --restore --no-restore-indices

7、升级本地DataHub

再次执行快速启动命令。它将拉下较新的镜像并重新启动实例,而不会丢失任何数据。

datahub docker quickstart

8、定制DataHub

如果要自定义DataHub安装,需要下载cli工具使用的docker-compose.yaml
https://raw.githubusercontent.com/datahub-project/datahub/master/docker/quickstart/docker-compose-without-neo4j-m1.quickstart.ymlhttps://raw.githubusercontent.com/datahub-project/datahub/master/docker/quickstart/docker-compose-without-neo4j-m1.quickstart.yml根据需要进行修改,并通过传递下载的docker-compose文件来部署DataHub:

datahub docker quickstart --quickstart-compose-file 


 

你可能感兴趣的:(数据治理,docker,大数据)