kafka如何确保数据不丢失?

producr端可以通过设置request.required.acks参数来保证数据不丢失,
1)asks = 0时,只要消息发送成功就会发送下一条数据,吞吐量最高,但这种情况即使数据丢失我们也无法知道;
2)asks = 1时,消息发送成功,并且leader接收成功后才会发送下一条数据,这种情况如果leader刚接收到数据,还没有同步到follower时,假如leader节点挂掉也会导致数据的丢失
3)asks = -1时,消息发送成功,要等待leader把消息同步到follower之后才会发送下一条数据,吞吐量最低,但最可靠。但是会产生一个数据重复,当Leader在同步的过程中挂掉了,没有给到应答给生产者,这时候生产者就会认为数据没有传给Leader,但其实这个时候已经是有一份数据,再来一份数据就重复了

还有1个是设置retry > 0 ,retry.backoff.ms retry的时间间隔,在传递数据的时候可以多尝试几次来防止这个网络抖动的情况的。

consumer端取消自动提交offset,实现手动提交offset,因为自动提交可能在数据没处理完成的时候,提交了一次,然后consumer端出错,导致该数据丢失。

你可能感兴趣的:(大数据面试,kafka,kafka)