kafka集群副本同步问题排查

背景:集群中的一台节点宕机,快速重启恢复。
过程
宕机期间和集群恢复期间副本情况如下
集群总Leader replicas和总 under Replicated partitions情况kafka集群副本同步问题排查_第1张图片
监控状态分析:
1.总Leader replicas数量有所下降,因为某台几点宕机,该结点上的Leader副本处于失联状态,
2.总under Replicated partitions急速上升,under-replicated 分区即失效分区,所有主副本不一致对应的分区即为失效分区,集群正常情况下总under Replicated partitions为0,即全部分区的主副本一致,在某节点宕机情况下该结点上的分区均为under Replicated partitions,所以总under Replicated partitions急速上升。
确认集群恢复:
1.总Leader replicas数量恢复到原来数量
2.总under Replicated partitions恢复为0

可能影响:
broker无法恢复:宕机时间过长超过kafka拉取副本的时间,被抛弃。ISR伸缩导致死锁,节点也无法恢复。
数据发送和消费异常:超过数据发送重

你可能感兴趣的:(kafka,kafka)