hudi系列-append写过程

前言

Append模式每次都生成新的parquet文件,不涉及数据修改、去重。cow+insert一直是append模式,mor+insert在0.13.1后也统一走append写流程(HUDI-6045)

在0.13.1之前,mor+insert存在着写parquet和写log两种情况:

  • 写parquet:compaction.schedule.enabled = false & clustering.async.enabled = true,这时是append模式
  • 写log:compaction.schedule.enabled = true & clustering.async.enabled = false,这时走upsert写过程

append写过程比upsert简单直接得多,因此写入性能远优于upsert.

整体流程

hudi系列-append写过程_第1张图片

  1. 与upsert写过程一样,借助StreamWriteOperatorCoordinator

你可能感兴趣的:(hudi系列,大数据,hudi,append,写)