Flink CDC 与 Kafka 集成:State Snapshot 还是 Changelog?Kafka 还是 Upsert Kafka?
我们知道,尽管FlinkCDC可以越过Kafka,将关系型数据库中的数据表直接“映射”成数据湖上的一张表(例如Hudi等),但从整体架构上考虑,维护一个Kafka集群作为数据接入的统一管道是非常必要的,这会带来很多收益。在FlinkCDC之前,以Debezium+KafkaConnect为代表的技术组合都是将数据库的CDC数据先接入到Kafka中,然后再由后续的组件解析和处理。引入FlinkCDC