CDC 增量同步框架与关系 /neo4j 增量同步设计

1.    背景

数据增量同步是 ETL 关键功能,在全量同步后,持续增量同步,保证数据的完整,正确和时效,通常有两种方式实现,双写和 CDC

双写 优点,实现简单, 写入源库同时写入目标库;缺点,代码侵入,影响正常业务

CDC  优点,无侵入,读取数据库 log,获取数据变更;缺点,复杂,需要引入 CDC 组件,从数据变更(表/行/字段变更)到目标增量变更(通常是 DTO)需要复杂的映射

Cdc 组件本身通用设计,支持扩展 redis,elasticsearch 等数据库同步

本文包括两部分,cdc 组件设计关系/图增量同步设计

2.    参考和术语

CDC  change data capture 数据变更抓获

RBT  基于规则的转换组件 InfoQ 写作社区-专业技术博客社区

3.    分布式 SETL 模块和规划

下图介绍 SETL 模块和规划

CDC 增量同步框架与关系 /neo4j 增量同步设计_第1张图片

setl-rbt 全量同步组件,datax 组件,接入分布式调度,实现高性能的全量同步

setl-cdc cdc 增量同步 datax 组件,接入分布

你可能感兴趣的:(分布式dataX,neo4j,中间件,java)