Datax CDC 可靠 channel

1. 背景

可靠 channel,可确认的分布式持久数据(Record)的 channel,Channel 不可靠对于 CDC 是致命的,丢失数据;但对于全量同步可以接受,全量同步故障转移后,整个分片重新同步。可靠 channel 对于数据量比较大,没有分片的情况也非常有用,相当于断点续传的能力,但对性能有一定影响

2. 参考和术语

CDC change data capture 数据变更抓获

CDC增量同步框架与关系/neo4j增量同步设计

3. 分布式 SETL 模块和规划

下图介绍 SETL 模块和规划

Datax CDC 可靠 channel_第1张图片

setl-rbt 全量同步组件,datax 组件,接入分布式调度,实现高性能的全量同步

setl-cdc cdc 增量同步 datax 组件,接入分布式时间槽实现高可靠增量,后续规划接入 kafka connect

setl-stream 研发中,流式 etl,引入 kafka connect,实现高吞吐低延时的增量同步

config-center 配置中心,datax 原生使用本地文件配置,配置中心摆脱本地文件限制,实现分布式系统的必要基础设施

sanner schema 扫描,辅助数据的同步

你可能感兴趣的:(分布式dataX,中间件,java)