流式数据湖平台Hudi核心概念一:时间线

 

1. 什么是Hudi

Hudi(Hadoop Upserts Deletes and Incrementals)是一个开源的数据湖工具,用于管理大规模数据湖中的数据。

Hudi旨在解决数据湖中常见的一些挑战,如数据的增量更新、删除和查询等。它提供了一套API和工具,可以帮助用户在数据湖中进行写入、更新、删除和查询等操作,并提供了高效的数据索引和存储机制,以加速数据的访问和处理。

Hudi的核心理念是将数据分为小的、可修改的单元,称为"写时复制(copy-on-write)"。当数据需要更新或删除时,Hudi会创建一个新的数据文件,而不是直接修改原始数据文件。这种设计可以保证数据的不可变性,同时提供了高效的增量更新和删除操作。

Hudi还提供了用于数据管理的元数据存储和查询功能,可以跟踪数据的版本、变更历史和元数据信息。这使得用户可以轻松地追踪和管理数据的变更,同时支持time-travel查询,即可以查询数据在不同时间点的版本。

Hudi(发音为“hoodie”)是下一代流式数据湖平台。ApacheHudi将核心仓库和数据库功能直接引入数据湖。Hudi提供表、事务、高效的追加/删除、高级索引、流接收服务、行式文件转列式文件优化和并发性,同时将数据

你可能感兴趣的:(数据湖,大数据,数据仓库,flink,spark,sql)