kafka如何保证数据不丢失?

  •    对kafka的理解:

            Kafka是一个分布式数据流平台,可以运行在单台上,也可多台服务器形成集群。它提供发布和订阅功能,使用者可以发送数据到Kafka中,也可以从Kafka中读取数据。

            Kafka具有高吞吐、低延迟、高容错等特点。0.8版本后,陆续加入了一些复制、应答和故障转移等机制以后,才可以让我们在其他关键性业务中使用。

  •     消息不丢失:

通过request.required.acks属性进行配置,有三个选项:

            0代表:不进行消息接收是否成功的确认(默认值);

            1代表:当Leader副本接收成功后,返回接收成功确认信息;

            -1代表:当Leader和Follower副本都接收成功后,返回接收成功确认信息;acks设置为0时,不和Kafka集群进行消息接受确认,当网络发生异常等情况时,存在消息丢失的可能;想要不丢失消息数据就选:同步、ack=-1的策略。

  •     问题扩展:

同消息不丢失伴生问题,如何避免重复消费:数据重复消费的情况,如果处理
去重:将消息的唯一标识保存到外部介质中,每次消费处理时判断是否处理过;
不管:大数据场景中,报表系统或者日志信息丢失几条都无所谓,不会影响最终的统计分析结果。

在kafka下游经常出现系统崩溃,需要回滚的问题,如何做到消息不重复消费是项目中很重要的一部分。可以修改offet从制定位置消费,也可以根据消息内容,从头消费toptic。对唯一字段进行过滤,做到消费过的字段不再消费。

你可能感兴趣的:(大数据之Kafka,kafka,大数据,消息队列)