分布式dataX CDC与关系/图(neo4j)增量同步(完整版)

1. 背景

数据增量同步是ETL关键功能,在全量同步后,持续增量同步,保证数据的完整,正确和时效,通常有两种方式实现,双写和CDC

双写 优点,实现简单, 写入源库同时写入目标库;缺点,代码侵入,影响正常业务

CDC 优点,无侵入,读取数据库log,获取数据变更;缺点,复杂,需要引入CDC组件,从数据变更(表/行/字段变更)到目标增量变更(通常是DTO)需要复杂的映射

Cdc组件本身通用设计,支持扩展redis,elasticsearch等数据库同步

本文包括两部分,cdc同步框架和基于cdc同步框架的关系/图增量同步设计

2. 参考和术语

CDC change data capture 数据变更抓获

RBT 基于规则的转换组件

《分布式datax架构设计》

《分布式datax详细(落地)设计》

《分布式时间槽设计》

3. SETL介绍

下图介绍SETL逻辑架构和规划

分布式dataX CDC与关系/图(neo4j)增量同步(完整版)_第1张图片

setl-rbt 全量同步组件,datax组件,接入分布式调度,实现高性能的全量同步

setl-cdc cdc增量同步datax组件,接入分布式时间槽实现高可靠增量,后续规划接入kafka connect

setl-stream 规划中,

你可能感兴趣的:(分布式dataX,分布式,java,zookeeper,neo4j)