华为云FusionInsight MRS实战 - Hudi实时入湖之DeltaStreamer工具最佳实践
背景传统大数据平台的组织架构是针对离线数据处理需求设计的,常用的数据导入方式为采用sqoop定时作业批量导入。随着数据分析对实时性要求不断提高,按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的(准)实时同步系统的开发。然而实时同步从一开始就面临如下几个挑战:小文件问题。不论是spark的microbatch模式,还是flink的逐条处理模式,每次写入HDFS