DataHub是现代数据堆栈的开源元数据平台,旨在实现端到端数据发现、数据可观察性和数据治理。这个可扩展的元数据平台是为开发人员构建的,以适应其快速发展的数据生态系统的复杂性,帮助数据从业者利用其组织内的数据价值。
技术文档:Introduction | DataHub
源码:https://github.com/datahub-project/datahub
1、安装docker、jq和docker-compose v1。确保为Docker引擎分配足够的硬件资源:2 CPU、8GB 内存、2GB Swap 和 10GB 硬盘。
2、启动Docker。
3、安装Python 3.6+
4、安装DataHub CLI
python3 -m pip install --upgrade pip wheel setuptools
python3 -m pip uninstall datahub acryl-datahub || true # sanity check - ok if it fails
python3 -m pip install --upgrade acryl-datahub
datahub version
datahub docker quickstart
这将使用docker-compose部署DataHub实例。
完成后,在浏览器中访问http://localhost:9002。使用datahub
作为用户名和密码登录。
查看datahub
所有支持的选项:
datahub docker quickstart --help
datahub docker ingest-sample-data
如果启用了元数据服务身份验证,则需要使用命令中的--token
datahub docker quickstart --stop
datahub docker nuke
该命令会清除DataHub的所有状态
datahub docker quickstart --backup
该命令将备份MySQL镜像,并默认将其写入到路径 ~/.datahub/quickstart/backup.sql。
可以通过传递--backup-file参数来自定义备份路径。
datahub docker quickstart --backup --backup-file /home/my_user/datahub_backups/quickstart_backup_2002_22_01.sql
快速启动备份不包含任何时间序列数据(数据集统计信息、配置文件等),如果删除所有索引并从此备份中恢复,将丢失该信息。
恢复备份(主+索引)
datahub docker quickstart --restore
此命令将提取位于路径 ~/.datahub/quickstart/backup.sql 的文件,并用它恢复主数据库以及弹性搜索索引。
可以通过传递--restore-file参数来自定义备份路径。
datahub docker quickstart --restore --restore-file /home/my_user/datahub_backups/quickstart_backup_2002_22_01.sql
仅恢复索引[处理索引不同步/损坏问题]
如果索引损坏,或者缺少一些更新。为了从主存储区重新启动索引,您可以运行此命令将索引与主存储区同步。
datahub docker quickstart --restore-indices
仅恢复主备份(无索引)
如果只想恢复主数据库(MySQL)的状态,但不想重新索引数据。则必须显式禁用还原索引功能。
datahub docker quickstart --restore --no-restore-indices
再次执行快速启动命令。它将拉下较新的镜像并重新启动实例,而不会丢失任何数据。
datahub docker quickstart
如果要自定义DataHub安装,需要下载cli工具使用的docker-compose.yaml
https://raw.githubusercontent.com/datahub-project/datahub/master/docker/quickstart/docker-compose-without-neo4j-m1.quickstart.ymlhttps://raw.githubusercontent.com/datahub-project/datahub/master/docker/quickstart/docker-compose-without-neo4j-m1.quickstart.yml根据需要进行修改,并通过传递下载的docker-compose文件来部署DataHub:
datahub docker quickstart --quickstart-compose-file