【Flink】FLINK-CDC之入门

1、什么是CDC?

CDC 是 Change Data Capture(变更数据获取)的简称。在广义的概念上,只要能捕获数据变更的技术,我们都可以称为 CDC 。通常我们说的 CDC 技术主要面向数据库的变更,是一种用于捕获数据库中数据变更的技术。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。

2、CDC技术应用场景?

(1)、数据同步:用于备份,容灾(如mysql主从,不同服务器之前的数据同步)

(2)、数据分发:一个数据源分发给多个下游(如多个业务方需要使用同一份数据)

(3)、数据采集:面向数据仓库/数据湖的 ETL 数据集成(如采集业务数据库数据到数仓)

3、CDC种类?

(1)、基于查询的CDC:每次同步获取数据采用查询的方式获取,用于离线查询,批处理,但无法保证数据一致性以及数据的实时性,常见大数据组件有Sqoop、datax、kettle等

(2)、基于日志的CDC:采用读取数据库日志的方式获取数据,可保障数据一致性和实时性,常见的大数据组件有c

你可能感兴趣的:(Flink实战,flink,大数据)