开源元数据管理平台Amundsen安装

Amundsen 是一个用于数据发现和元数据管理的开源平台。Amundsen是一个用于提高数据分析师、数据科学家和工程师在与数据交互时的生产力的数据发现和元数据引擎。目前,它通过索引数据资源(表、仪表板、流等)并基于使用模式(例如,高频查询的表会比低频查询的表更早显示)提供类似于PageRank的搜索来实现这一目标。可以将其视为数据的Google搜索。该项目以挪威探险家Roald Amundsen命名,他是第一个发现南极点的人。

Amundsen由LF AI & Data Foundation托管。它包括三个微服务、一个数据摄取库和一个通用库。

  • amundsenfrontendlibrary:前端服务,是一个使用React前端的Flask应用程序。
  • amundsensearchlibrary:搜索服务,利用Elasticsearch提供搜索功能,用于支持前端的元数据搜索。
  • amundsenmetadatalibrary:元数据服务,利用Neo4j或Apache Atlas作为持久层,提供各种元数据。
  • amundsendatabuilder:用于构建元数据图和搜索索引的数据摄取库。用户可以使用库中的Python脚本加载数据,也可以使用导入库的Airflow DAG。
  • amundsencommon:Amundsen通用库包含在Amundsen中的微服务之间共享的通用代码。
  • amundsengremlin:Amundsen Gremlin库包含用于将模型对象转换为gremlin中的顶点和边的代码。它用于将数据加载到AWS Neptune后端。
  • amundsenrds:Amundsenrds包含支持关系数据库作为Amundsen元数据后端存储的ORM模型。ORM模型中的模式遵循databuilder模型的逻辑。Amundsenrds将用于databu

你可能感兴趣的:(hadoop,大数据生态,数据湖,开源,大数据)