DataHub: 现代数据栈的元数据平台的入门体验及填坑记录

数据治理平台系统文章:
DataHub: 现代数据栈的元数据平台系列之一

什么是datahub

DataHub是为现代数据栈【Modern Data Stack】构建的第三代元数据平台,支持数据发现、协作、治理和端到端可观察性。DataHub采用模型优先的理念,专注于解锁不同工具和系统之间的互操作性。

DataHub架构图

通过Datahub的架构图可以清晰的了解Datahub的架构组成。
主要分为三部分:

  • Datahub frontend作为前端的页面展示,基于React框架研发
  • Datahub serving来提供后端的存储服务。后端开发语言为Python,存储基于MySQL、ES、Neo4J
  • Datahub ingestion则用于抽取元数据信息。提供了如下2种方式,这对于元数据的获取非常的灵活。
    • 基于API元数据主动拉取方式,
    • 基于Kafka的实时元数据获取方式。
      DataHub: 现代数据栈的元数据平台的入门体验及填坑记录_第1张图片

DataHub组成部分

你可能感兴趣的:(基于Datahub进行数据治理,数据治理,数据血缘,DataHub,元数据平台)