kafka 数据可靠性保证

          为保证produec发送的数据,能可靠发送到指定的topic,topic的每个partition收到produce发送的数据后,都需要向produce发送ack(确认收到),如果produce收到ack,就会进入下一轮的发送,否则重新发送。

副本数据同步策略
          半数以上同步完成,就发送ack
              延迟低
              2n+1
          全部同步完成,发送ack
              n+1
              延迟高
          第一种方案需要2n+1,第二种只需要n+1,而kafka的每个分区都有大量的数据,第一种方案会造成大量的冗余。
          第二种方案网络延迟较高,但网络延迟对kafka的影响极小。


ISR
          leader维护了一个集合,意为leader保持同步和follower集合。当isr中的follower完成数据的同步后,leader就会给follower发送ack。如果follower长时间未向leader同步数据,则该follower将被踢出ISR,该时间阈值由replica.lag.time.max.ms参数设定,leader发生故障后,就会从ISR中选举新的leader。


 ack应答机制
          acks:
              0:producer不等待broker的ack,提供了最低的延迟,broker一接受到还没写入磁盘,就已经返回,当broker故障时有可能丢失数据
              1:producer等待broker的ack,partition的leader落盘成功后返回ack,如果在follower同步之前leader故障,将会丢失数据
             -1:producer等待broker的cak,partition的leader和follower全部落盘成功后才返回ack,但如果在follower同步完成后,broker发送ack之前,leader发生故障,那么将会造成数据重复。

你可能感兴趣的:(kafka)