背景

对于Upsert操作，Hudi需要定位到数据所在的File Group。当File Group很多的时候，定位File Group的过程会成为性能瓶颈。

Hudi 提供了索引的方式，保存了每个record key和他所属的file id的对应关系。然后将这些对应关系保存到外部存储系统（HBase， Flink状态后端等）。这种方式需要引入外部系统，运维的复杂度较高且索引数据量较大。除此之外Hudi还提供了Bloom filter方式。每个parquet文件都对应一个bloom filter。通过这个bloom filter可以很容易确定数据不在这个parquet文件。有助于在扫描parquet文件的时候快速跳过无关的文件。但是在确认数据在某个parquet的时候，因bloom filter存在误判的可能性，需要逐条比对数据，存在较大的性能消耗。

在这个背景下提出了Hudi bucket Index。它是一种优化措施，将每个partition中的file group分为N份，N为bucket个数。每个分区下的File group个数一旦确定不再会变化（除了Clustering的时候）。未启用bucket index的情况下file group的file id使用UUID标识。启用了bucket index之后。每个file id的前8为被替换为bucket number（同一个partition中的不同bucket使用bucket number标识）。通过数据的record key取hash运算可以将数据映射到不同的bucket上。也就是说bucket index通过partition -> bucket number两个层级来定位record所属的file group。这两级查找时间复杂度都是O(1)，无需遍历数据文件，极大的提高了查找的速度。

除此之外，在查询的时候如果使用bucket字段作为查询筛选条件，由于bucket字段相同的数据一定位于同一个bucket中，可以跳过其他的file group，减少扫描的数据量。

使用bucket index需要注意的是，每个partition的bucket数量一旦确定就无法更改。Hudi的小文件处理策略和大文件分块不再有效。所以说使用前需要预估数据量。如果bucket数量过少，每个file group文件大小会过大，不利于并发处理。如果bucket数量过多，会遇到大量小文件问题，会增大分布式文件系统元数据负载，降低持续读写性能。

Bucket index配置项

index.type(Flink) / hoodie.index.type(Spark)。使用的索引类型。如果要使用bucket index，需要配置为BUCKET。
hoodie.bucket.index.num.buckets。bucket个数，默认为256。在Flink中默认为4。
hoodie.bucket.index.hash.field。按照哪个资源hash分桶。不配置默认使用record key。

Bucket Index的原理

Pipelines

我们从构建bucket写入逻辑的BucketStreamWriteOperator所在的Pipelines的hoodieStreamWrite方法开始分析。它的代码如下：

public static DataStream

Hudi 源码之Bucket Index

背景

Bucket index配置项

Bucket Index的原理

Pipelines

BucketStreamWriteFunction

Flink Hudi默认的state索引

使用索引方式

加载索引的方式

参考文献

你可能感兴趣的:(Hudi 源码之Bucket Index)