flink实战--flinkSQL写入hudi的四种方式

简介

        hudi官方提供了下面四种方式写入hudi,可以根据不通同的业务需求选择合适的写入方式。

  1. bulk_insert
  2. Index bootstrap
  3. Changelog Mode
  4. Insert Mode    

bulk_insert

用于快速导入快照数据到hudi。

基本特性

bulk_insert可以减少数据序列化以及合并操作,于此同时,该数据写入方式会跳过数据去重,所以用户需要保证数据的唯一性。

bulk_insert在批量写入模式中是更加有效率的。默认情况下,批量执行模式按照分区路径对输入记录进行排序,并将这些记录写入Hudi,该方式可以避免频繁切换文件句柄导致的写性能下降。

bulk_insert的并行度有write.tasks参数指定,并行度会影响小文件的数量。理论上来说,bulk_insert的并行度就是bucket的数量(特别是,当每个bucket写到最大文件大小时,它将转到新的文件句柄。最后,文件的数量将大于参数write.bucket.assign.tasks指定的数量 )

可选配置参数

参数名称 是否必须 默认值 参数说明
write.operation true upsert 设置为 bulk_insert 以开启bulk_insert功能
writ

你可能感兴趣的:(Flink学习必读系列,数据库,mysql,hudi,flink,flink,写入hudi)