01-Datahub是什么?

Datahub是LinkedIn开源的基于现代数据栈的元数据管理平台,原来叫做WhereHows 。经过一段时间的发展datahub于2020年2月在Github开源。

官网地址为:A Metadata Platform for the Modern Data Stack | DataHub

源码地址为:GitHub - datahub-project/datahub: The Metadata Platform for the Modern Data Stack

目前标星8.8K,最新稳定版本0.12.0。

开发语言为Java和Python。

01-Datahub是什么?_第1张图片

官网

01-Datahub是什么?_第2张图片

页面

01-Datahub是什么?_第3张图片

Datahub支持的功能:

Datahub是现代数据栈的元数据管理平台,支持Tableai、PowerBI、Superset等数据可视化工具。也支持Airflow、Spark、ES、Kafka、Hive、Mysql、Oracle等大数据组件的元数据的获取。

有搜索,数据血缘,数据分析,标签,术语表等功能,也可以集成数据质量框架,如GreatExceptions。

Datahub的优缺点:

优势:

强大的数据发现和搜索功能,方便用户快速定位所需数据。

提供数据质量元数据,帮助用户理解和信任数据。

支持多种数据源,包括传统的关系数据库和现代的数据湖。

社区活跃,不断有新功能和改进加入。

劣势: 初学者可能会觉得界面和配置相对复杂。

在某些情况下,集成新的数据源可能需要额外的开发工作。

总之Datahub是目前最优秀的元数据管理项目,如果能掌握Datahub对于学习元数据管理帮助巨大。

你可能感兴趣的:(大数据)