初始 Kafka Consumer 消费者,java程序设计教程pdf

  • 队列负载机制

既然同一个消费组内的消费者共同承担主题下所有队列的消费,那他们如何进行分工呢?默认情况下采取平均分配,例如一个消费组有两个消费者c1、c2,一个 topic 的分区数为6,那 c1 会负责3个分区的消费,同样 c2 会负责另外3个分区的分配。

那如果其中一个消费者宕机或新增一个消费者,那队列能动态调整吗?

答案是会重新再次平衡,例如如果新增一个消费者 c3,则c1,c2,c3都会负责2个分区的消息消费,分区重平衡会在后续文章中重点介绍。消费者也可以通过 assign 方法手动指定分区,此时会禁用默认的自动分配机制。

  • 消费者故障检测机制

当通过 subscribe 方法订阅某些主题时,此时该消费者还未真正加入到订阅组,只有当 consumeer#poll 方法被调用后,并且会向 broker 定时发送心跳包,如果 broker 在 session.timeout.ms 时间内未收到心跳包,则 broker 会任务该消费者已宕机,会将其剔除,并触发消费端的分区重平衡。

消费者也有可能遇到“活体锁”的情况,即它继续发送心跳,但没有任何进展。在这种情况下,为了防止消费者无限期地占用它的分区,可以使用max.poll.interval.ms 设置提供了一个活性检测机制。基本上,如果您调用轮询的频率低于配置的最大间隔,那么客户机将主动离开组,以便另一个消费者

《一线大厂Java面试题解析+后端开发学习笔记+最新架构讲解视频+实战项目源码讲义》

【docs.qq.com/doc/DSmxTbFJ1cmN1R2dB】 完整内容开源分享

可以接管它的分区。当这种情况发生时,您可能会看到一个偏移提交失败(由调用{@link #commitSync()}抛出的{@link CommitFailedException}表示)。

  • kafka 对 poll loop 行为的控制参数

Kafka 提供了如下两个参数来控制 poll 的行为:

  • max.poll.interval.ms

允许 两次调用 poll 方法的最大间隔,即设置每一批任务最大的处理时间。

  • max.poll.records

每一次 poll 最大拉取的消息条数。

对于消息处理时间不可预测的情况下上述两个参数可能不够用,那将如何是好呢?

通常的建议将消息拉取与消息消费分开,一个线程负责 poll 消息,处理这些消息使用另外的线程,这里就需要手动提交消费进度。为了控制消息拉起的过快,您可能会需要用到 Consumer#pause(Collection) 方法,暂时停止向该分区拉起消息。RocketMQ 的推模式就是采用了这种策略。如果大家有兴趣的话,可以从笔者所著的《RocketMQ技术内幕》一书中详细了解。

2、KafkaConsume 使用示例


2.1 自动提交消费进度

public static void testConsumer1() {

Properties props = new Properties();

props.setProperty(“bootstrap.servers”, “localhost:9092,localhost:9082,localhost:9072”);

props.setProperty(“group.id”, “C_ODS_ORDERCONSUME_01”);

props.setProperty(“enable.auto.commit”, “true”);

props.setProperty(“auto.commit.interval.ms”, “1000”);

props.setProperty(“key.deserializer”, “org.apache.kafka.common.serialization.StringDeserializer”);

props.setProperty(“value.deserializer”, “org.apache.kafka.common.serialization.StringDeserializer”);

KafkaConsumer consumer = new KafkaConsumer<>(props);

consumer.subscribe(Arrays.asList(“TOPIC_ORDER”));

while (true) {

ConsumerRecords records = consumer.poll(Duration.ofMillis(100));

for (ConsumerRecord record : records) {

System.out.println(“消息消费中”);

System.out.printf(“offset = %d, key = %s, value = %s%n”, record.offset(), record.key(), record.value());

}

}

}

2.2 手动提交消费进度

public static void testConsumer2() {

Properties props = new Properties();

props.setProperty(“bootstrap.servers”, “localhost:9092”);

props.setProperty(“group.id”, “test”);

props.setProperty(“enable.auto.commit”, “false”);

props.setProperty(“key.deserializer”, “org.apache.kafka.common.serialization.StringDeserializer”);

props.setProperty(“value.deserializer”, “org.apache.kafka.common.serialization.StringDeserializer”);

KafkaConsumer consumer = new KafkaConsumer<>(props);

consumer.subscribe(Arrays.asList(“foo”, “bar”));

final int minBatchSize = 200;

List> buffer = new ArrayList<>();

while (true) {

ConsumerRecords records = consumer.poll(Duration.ofMillis(100));

for (ConsumerRecord record : records) {

buffer.add(record);

}

if (buffer.size() >= minBatchSize) {

// insertIntoDb(buffer);

// 省略处理逻辑

consumer.commitSync();

buffer.clear();

}

}

}

3、认识 Consumer 接口


要认识 Kafka 的消费者,个人认为最好的办法就是从它的类图着手,下面给出 Consumer 接口的类图。

初始 Kafka Consumer 消费者,java程序设计教程pdf_第1张图片

接下来对起重点方法进行一个初步的介绍,从下篇文章开始将对其进行详细设计。

  • Set< TopicPartition> assignment()

获取该消费者的队列分配列表。

  • Set< String> subscription()

获取该消费者的订阅信息。

  • void subscribe(Collection< String> topics)

订阅主题。

  • void subscribe(Collection< String> topics, ConsumerRebalanceListener callback)

订阅主题,并指定队列重平衡的监听器。

  • void assign(Collection< TopicPartition> partitions)

取代 subscription,手动指定消费哪些队列。

  • void unsubscribe()

取消订阅关系。

  • ConsumerRecords poll(Duration timeout)

拉取消息,是 KafkaConsumer 的核心方法,将在下文详细介绍。

  • void commitSync()

同步提交消费进度,为本批次的消费提交,将在后续文章中详细介绍。

  • void commitSync(Duration timeout)

同步提交消费进度,可设置超时时间。

  • void commitSync(Map offsets)

显示同步提交消费进度, offsets 指明需要提交消费进度的信息。

  • void commitSync(final Map offsets, final Duration timeout)

显示同步提交消费进度,带超时间。

  • void seek(TopicPartition partition, long offset)

重置 consumer#poll 方法下一次拉消息的偏移量。

  • void seek(TopicPartition partition, OffsetAndMetadata offsetAndMetadata)

seek 方法重载方法。

  • void seekToBeginning(Collection< TopicPartition> partitions)

将 poll 方法下一次的拉取偏移量设置为队列的初始偏移量。

  • void seekToEnd(Collection< TopicPartition> partitions)

将 poll 方法下一次的拉取偏移量设置为队列的最大偏移量。

  • long position(TopicPartition partition)

获取将被拉取的偏移量。

  • long position(TopicPartition partition, final Duration timeout)

同上。

  • OffsetAndMetadata committed(TopicPartition partition)

获取指定分区已提交的偏移量。

  • OffsetAndMetadata committed(TopicPartition partition, final Duration timeout)

同上。

  • Map metrics()

统计指标。

  • List< PartitionInfo> partitionsFor(String topic)

获取主题的路由信息。

  • List< PartitionInfo> partitionsFor(String topic, Duration timeout)

同上。

  • Map> listTopics()

获取所有 topic 的路由信息。

  • Map> listTopics(Duration timeout)

同上。

  • Set< TopicPartition> paused()

获取已挂起的分区信息。

  • void pause(Collection< TopicPartition> partitions)

挂起分区,下一次 poll 方法将不会返回这些分区的消息。

  • void resume(Collection< TopicPartition> partitions)

恢复挂起的分区。

  • Map offsetsForTimes(Map timestampsToSearch)

根据时间戳查找最近的一条消息的偏移量。

  • Map offsetsForTimes(Map timestampsToSearch, Duration timeout)

同上。

  • Map beginningOffsets(Collection< TopicPartition> partitions)

查询指定分区当前最小的偏移量。

  • Map beginningOffsets(Collection< TopicPartition> partitions, Duration timeout)

同上。

  • Map endOffsets(Collection< TopicPartition> partitions)

查询指定分区当前最大的偏移量。

  • Map endOffsets(Collection< TopicPartition> partitions, Duration timeout)

你可能感兴趣的:(程序员,面试,java,后端)