【面试题】最新大数据面试题总结之Kafka(持续更新)

文章目录

    • -- 关于kafka架构
    • -- Kafka的分区分配策略
    • -- 怎么保证数据 kafka 里的数据安全?


– 关于kafka架构

  • 主要由生产者、Broker、消费者、ZK组成
    【面试题】最新大数据面试题总结之Kafka(持续更新)_第1张图片
    【面试题】最新大数据面试题总结之Kafka(持续更新)_第2张图片
  • 注意:Zookeeper中保存Broker id和消费者offsets等信息,但是没有生产者信息。

– Kafka的分区分配策略

  • 在 Kafka内部存在两种默认的分区分配策略:Range和 RoundRobin。当组里消费者数量发生变化的时候都会触发这个分区分配的方法来进行重新分配,即使partition已经分配完。
  • Range(类似斗地主一坨一坨的发牌,每个主题一轮直接发完):是默认策略,Range是对每个Topic而言的(即一个Topic一个Topic分),首先对同一个Topic里面的分区按照序号进行排序,并对消费者按照字母顺序进行排序。然后用Partitions分区的个数除以消费者线程的总数来决定每个消费者线程消费几个分区。如果除不尽,那么前面几个消费者线程将会多消费一个分区。当有多个tipoc时,因为会把每一个tipoc单独当成整体来分配,这种分配策略缺点是当主题太多时可能会导致组内不同的消费者消费的partition数差距较大。
    【面试题】最新大数据面试题总结之Kafka(持续更新)_第3张图片
  • RoundRobin(轮询,类似斗地主一张一张的发牌模式):如果有多个topic,里面的所有partition经过排序后,RoundRobin会把排序后的所有主题里面的partition当做整体然后将里面的partition一个一个的分发给组内不同的消费者,所以仅适用于组内的所有消费者订阅的topic都是一样的情况。如果组里消费者订阅的主题不一样就会出问题。要求同一个Consumer Group里面的所有消费者的num.streams(消费者消费线程数)必须相等,每个消费者订阅的主题必须相同,最佳情况是消费者数等于分区数。
    【面试题】最新大数据面试题总结之Kafka(持续更新)_第4张图片
  • 注意:2.4版本出了一个Sticky Partitioner方法,尽量保持结果和原来分配的一样,每次加减consumer都彻底重新分配太浪费性能了。
    比如当三个消费者时分区分配结果为:123   456   789 加一个消费者后结果为 123  45  78  69

– 怎么保证数据 kafka 里的数据安全?

1.生产者数据的不丢失

  • kafka 的ack 机制:在 kafka 发送数据的时候,每次发送消息都会有一个确认反馈机制,确保消息正常的能够被收到。
  • 如果是同步模式:ack 机制能够保证数据的不丢失,如果 ack 设置为 0,风险很大,一般不建议设置为 0
    在这里插入图片描述
  • 如果是异步模式:通过 buffer 来进行控制数据的发送,有两个值来进行控制,时间阈值与消息的数量阈值,如果 buffer 满了数据还没有发送出去,如果设置的是立即清理模式,风险很大,一定要设置为阻塞模式
  • 结论:producer 有丢数据的可能,但是可以通过配置保证消息的不丢失
    【面试题】最新大数据面试题总结之Kafka(持续更新)_第5张图片

2.消费者数据的不丢失

  • 通过 offset commit 来保证数据的不丢失,kafka 自己记录了每次消费的 offset 数值,下次继续消费的时候,接着上次的 offset 进行消费即可。

你可能感兴趣的:(大数据面试题,#,Kafka,kafka)