Debezium系列之:记录一次小时级离线任务数据丢失问题定位

Debezium系列之:记录一次小时级离线任务数据丢失问题定位

  • 一、背景
  • 二、快速定位分析问题
  • 三、问题产生的原因
  • 四、总结和经验

一、背景

  • 收到告警信息:当前小时捕捉到了前几个小时采集的数据才生成的告警信息,查看任务,发现前几个小时的调度任务已经跑完,小时级任务会检查数据采集情况,这说明出了问题,需要定位问题

二、快速定位分析问题

分析定位流程:

  • 查看connector状态,判断connector状态是否正常
  • connector状态正常,查看位点信息,判断采集的时间点,确认数据采集一切正常
  • 在上述步骤的基础上,定位是数据库出现了问题,和dba确认数据库数据采集专用节点是否正常
  • 定位到原因后,重跑小时级任务,确保数据不丢失

三、问题产生的原因

  • 最后定位到是数据库从节点主从同步出现了问题,数据库从节点主从同步修复后,恢复了数据采集

四、总结和经验

总结:

  • 数据库主从同步出现问题,采集延迟指标是不存在延迟的,因此小时级别任务没有卡在数据采集延迟

经验:

  • 监控告警需要完善,这样能够及时提前发现问题
  • 需要确保采集的数据库有数据一致性检查告警,这样能够保证数据不会遗漏

你可能感兴趣的:(debezium,Debezium系列,记录一次小时级离线任务,数据丢失问题定位)