華小灼

kafka的Consumer 消费者(六)

Kafka 的消费方式

消息队列主要有两个消费方式：pull(拉)模式 和 push(推)模式
pull(拉)模式 consumer采用从broker中主动拉取数据，push(推)模式 broker决定消息发送速率。而每个消费者受限于所部署的服务器性能限制，如果使用push(推)模式很可能会出现有的consumer还来不及消费；因此kafka是采用的pull(拉)模式，可以根据消费者服务器的性能去调节消费者消费的消息速率。当然pull(拉)模式也有一定的缺陷，如果kafka中没有数据，消费者可能会陷入循环中，一直返回空数据。

消费者总体工作流程

生产者向每个分区的leader发送数据，follower主动与leader进行数据的同步保证数据的可靠性，消费者消费分区的数据，一个消费者可以消费一个或者多个分区的数据，而每个消费者是独立，并不存在相互关联的；但是每个分区的数据只能有消费者组中的一个消费者消费。

消费者组原理

消费者组

Consumer Grep (CG)： 消费者组，有多个consumer组成，形成一个消费者组的条件是所有的消费者的groupid相同

消费者组内每个消费者负责消费不同分区的数据，一个分区只能由一个组内消费者消费
消费者组之间互不影响，所有的消费者都属于某个消费者组，即消费者组是逻辑上的一个订阅者
如果向消费者组中添加更多的消费者，超过主题分区数量，则有一部分消费者就会闲置不会接收任何消息

消费者组初始化流程

首先了解一个组件：coordinator，它是辅助实现消费者组的初始化和分区的分配。每个broker节点中都有一个对应的coordinator。coordinator的节点选择 = groupid 的hashcode值 % 50 (_consumer_offset的分区数量)，而消费者组中的消费者就是通过这个公式来选择coordinator节点
例如：groupid的hashcode值是1,1%50=1，那么_consumer_offset主题的1号分区，在哪个broker上，就选择这个节点的coordinator作为这个消费者组的老大。消费者组下的所有的消费者提交offset的时候就往这个分区去提交offset。

消费者组详细消费流程

消费者组在进行工作之前，会先创建一个消费者网络连接客户端，主要用于与kafka集群进行交互
消费者组发送消费请求用于抓取数据的初始化
调用send方法发送请求
发送完请求后通过回调方法拉取对应的结果，放入消息队列中
消费者从队列中拉取指定数量的消息进行处理
将消息进行反序列化，经过拦截器在进行数据的处理

消费者API

示例1：消费一个主题
注意：在消费者API代码中必须配置消费者组ID。命令行启动消费者不填组ID会被自动填写随机的消费者组ID

public static void main(String[] args) {
    Properties properties = new Properties();
    properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.0.120:9092");
    properties.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
    properties.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());

    // ack配置,默认-1(all)
    properties.put(ProducerConfig.ACKS_CONFIG, "1");
    // 重试次数
    properties.put(ProducerConfig.RETRIES_CONFIG, 10);

    KafkaProducer<String, String> producer = new KafkaProducer<>(properties);
    for (int i = 0; i < 10; i++) {
        producer.send(new ProducerRecord<String, String>("first", "ACK测试" + i), new Callback() {
            @Override
            public void onCompletion(RecordMetadata data, Exception e) {
                if (e == null) {
                    System.out.println("分区：" + data.partition());
                } else {
                    System.err.println("发送失败");
                    System.err.println(e);
                }
            }
        });
    }

    // 关闭资源
    producer.close();
}

示例2：消费一个主题下的指定分区

public static void main(String[] args) {
    // 配置
    Properties properties = new Properties();
    // 连接kafka
    properties.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.0.120:9092");
    // 反序列化
    properties.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
    properties.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
    // 配置消费者groupid, 注意：必须的配置此参数
    properties.put(ConsumerConfig.GROUP_ID_CONFIG, "first_01");

    // 创建消费者
    KafkaConsumer<String, String> consumer = new KafkaConsumer<>(properties);

    // 订阅主题对应的分区
    List<TopicPartition> topics = new ArrayList<>();
    topics.add(new TopicPartition("first", 0));
    consumer.assign(topics);

    // 消费数据
    while (true) {
        ConsumerRecords<String, String> poll = consumer.poll(Duration.ofSeconds(5)); // 间隔5秒拉取数据
        poll.forEach(System.out::println);
    }
}

分区的分配以及再平衡

kafka有四种主流的分区非配策略：Range、RoundRobin、Sticky、CooperativeSticky，可以通过 partition.assignment.strategy 参数修改分区的分配策略。默认策略是Range+CooperativeSticky。kafka可以同时使用多个分区分配策略。

Range 策略

Range是对每个topic而言的。首先对同一个topic里面的分区按照序号进行排序，并对消费者按照字母顺序进行排序；通过 partitions数 / consumers数来决定每个消费者应该消费几个分区。如果除不尽，那么前面几个消费者将会多消费几个分区
注意： 如果只是针对1个topic而言，消费者多消费一个分区影响不是很大，但是如果有N多个topic，那么针对每个topic前面的消费者都将多消费一个分区，容易产生数据倾斜

RoundRobin 策略

RoundRobin 是针对集群所有topic而言的，RoundRobin 轮询分区策略，是把所有的partition和所有的consumer都列出来，然后按照hashcode进行排序，最后通过轮询算法来分配partition给到各个消费者

Sticky 策略

粘性分区可以理解为分配的结果带有"粘性的"，即在执行一次新的分配之前，考虑上一次分配的结果，尽可能少的调整分配的变动，可以节省大量的开支。粘性分区是Kafka从0.11x版本开始引入的分配策略，首先会尽量均衡的放置分区到消费者上面，在出现同一消费者组内消费者出现问题的时候，会尽量保持原有分配的分区不变

示例：

public static void main(String[] args) {
    Properties properties = new Properties();
    properties.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.0.120:9092");
    properties.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
    properties.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
    properties.put(ConsumerConfig.GROUP_ID_CONFIG, "first_01");

    // 配置分区分配策略，可配置参数: RangeAssignor    RoundRobinAssignor    StickyAssignor    CooperativeStickyAssignor
    properties.put(ConsumerConfig.PARTITION_ASSIGNMENT_STRATEGY_CONFIG, RangeAssignor.class.getName());

    KafkaConsumer consumer = new KafkaConsumer<>(properties);
    List topics = new ArrayList<>();
    topics.add("first");
    consumer.subscribe(topics);
    while (true) {
        ConsumerRecords poll = consumer.poll(Duration.ofSeconds(5)); // 间隔5秒拉取数据
        for (ConsumerRecord record : poll) {
            System.out.println(record);
        }
    }
}

offset位移

offset默认的维护位置

kafka0.9版本之前，consumer默认将offset保存在zookeeper中，从0.9版本开始，consumer默认将offset保存在kafka一个内置的topic中：__consumer_offsets。原因：如果每个消费者都和zookeeper进行交互储存对应的offset，将会占用大量的网络资源，效率比较低下

__consumer_offsets主题里面采用key-value的方式保存数据。key是 group.id + topic + 分区号，value是当前offset的值。每隔一段时间，kafka内部会对这个topic进行compact，也就是 group.id + topic + 分区号就保留最新的数据。

默认情况下，kafka是不允许查看系统主题的数据的，可以通过 exclude.internal.topic 修改，默认true表示不能消费系统主题
示例：

# 修改kafka consumer的配置文件(vi config/consumer.properties)，新增以下参数
exclude.internal.topic=false

# 为了方便，创建一个新的topic
./bin/kafka-topics.sh --bootstrap-server 192.168.0.120:9092 --create --topic testOffset --partitions 2 --replication-factor 1

# 启动生产者并向 testOffset 发送数据
./bin/kafka-console-producer.sh --bootstrap-server 192.168.0.120:9092 --topic testOffset

# 启动消费者消费 testOffset 的数据，指定组是为了方便观察储存位置
./bin/kafka-console-consumer.sh --bootstrap-server 192.168.0.120:9092 --topic testOffset --group test

# 查看消费者消费注意__consumer_offsets
./bin/kafka-console-consumer.sh --bootstrap-server 192.168.0.120:9092 --topic __consumer_offsets --consumer.config config/consumer.properties --formatter "kafka.coordinator.group.GroupMetadataManager\$OffsetsMessageFormatter" --from-beginning

自动提交offset

为了使我们能够专注于自己的业务逻辑，kafka提供了自动提交offset的功能。自动提交offset的相关参数如下：

enable.auto.commit：是否开始自动提交offset，默认true
auto.commit.interval.ms：自动提交offset的时间间隔，默认5s

示例：

public static void main(String[] args) {
    Properties properties = new Properties();
    properties.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.0.120:9092");
    properties.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
    properties.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
    properties.put(ConsumerConfig.GROUP_ID_CONFIG, "first_01");
    properties.put(ConsumerConfig.PARTITION_ASSIGNMENT_STRATEGY_CONFIG, RangeAssignor.class.getName());

    // 自动提交
    properties.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, true);
    // 提交时间间隔
    properties.put(ConsumerConfig.AUTO_COMMIT_INTERVAL_MS_CONFIG, 1000);

    KafkaConsumer<String, String> consumer = new KafkaConsumer<>(properties);
    List<String> topics = new ArrayList<>();
    topics.add("first");
    consumer.subscribe(topics);
    while (true) {
        ConsumerRecords<String, String> poll = consumer.poll(Duration.ofSeconds(5)); // 间隔5秒拉取数据
        for (ConsumerRecord<String, String> record : poll) {
            System.out.println(record);
        }
    }
}

手动提交offset

虽然自动提交offset简单便利，但是由于其是基于时间提交的，开发员难以把握offset提交的时机。因此kafka还提供了手动提交offset的API
手动提交offset的方法有两种：commitSync 同步提交、commitAsync 异步提交。两者的相同点都会将本次提交的一批数据最高的偏移量提交，不同的是：同步提交阻塞当前线程， 一直到提交成功，并且会自动失败重试(由不可控因素导致，也会出现提交失败)，而异步提交没有重试机制，故有可能提交失败

commitSync 同步提交：必须等待offset提交完毕再去消费下一批数据
commitAsync 异步提交：发送完提交offset请求后，就开始消费下一批数据

示例1：同步提交

public static void main(String[] args) {
   Properties properties = new Properties();
   properties.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.0.120:9092");
   properties.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
   properties.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
   properties.put(ConsumerConfig.GROUP_ID_CONFIG, "first_01");
   properties.put(ConsumerConfig.PARTITION_ASSIGNMENT_STRATEGY_CONFIG, RangeAssignor.class.getName());

   // 手动提交配置
   properties.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, false);

   KafkaConsumer<String, String> consumer = new KafkaConsumer<>(properties);
   List<String> topics = new ArrayList<>();
   topics.add("first");
   consumer.subscribe(topics);
   while (true) {
       ConsumerRecords<String, String> poll = consumer.poll(Duration.ofSeconds(5)); // 间隔5秒拉取数据
       for (ConsumerRecord<String, String> record : poll) {
           System.out.println(record);
       }
       // 同步提交offset
       consumer.commitSync();
   }
}

示例2：异步提交

public static void main(String[] args) {
    Properties properties = new Properties();
    properties.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.0.120:9092");
    properties.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
    properties.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
    properties.put(ConsumerConfig.GROUP_ID_CONFIG, "first_01");
    properties.put(ConsumerConfig.PARTITION_ASSIGNMENT_STRATEGY_CONFIG, RangeAssignor.class.getName());

    // 手动提交配置
    properties.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, false);

    KafkaConsumer<String, String> consumer = new KafkaConsumer<>(properties);
    List<String> topics = new ArrayList<>();
    topics.add("first");
    consumer.subscribe(topics);
    while (true) {
        ConsumerRecords<String, String> poll = consumer.poll(Duration.ofSeconds(5)); // 间隔5秒拉取数据
        for (ConsumerRecord<String, String> record : poll) {
            System.out.println(record);
        }
        // 异步提交offset
        consumer.commitAsync();
    }
}

指定offset消费

目前有earliest、latest、none消费方式，默认latest，通过参数 auto.offset.reset 可以进行修改

earliest： 自动将偏移量重置为最早的偏移量 --from-beginning
latest： 自动将偏移量重置为最新偏移量
none： 如果未找到消费者组的先前偏移量，则向消费者抛出异常
示例：

public static void main(String[] args) {
   Properties properties = new Properties();
   properties.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.0.120:9092");
   properties.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
   properties.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
   properties.put(ConsumerConfig.GROUP_ID_CONFIG, "first_01");

   // 修改消费方式  earliest、latest、none
   properties.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG,"earliest");

   KafkaConsumer<String, String> consumer = new KafkaConsumer<>(properties);
   List<String> topics = new ArrayList<>();
   topics.add("first");
   consumer.subscribe(topics);

   // 指定位置进行消费
   Set<TopicPartition> partitions = consumer.assignment();
   // 保证分区分配方案已经制定完成
   while (partitions.size() == 0) {
       consumer.poll(Duration.ofSeconds(1));// 拉取一次数据
       partitions = consumer.assignment();// 更新
   }
   for (TopicPartition partition : partitions) {
       consumer.seek(partition, 100);
   }

   while (true) {
       ConsumerRecords<String, String> poll = consumer.poll(Duration.ofSeconds(5)); // 间隔5秒拉取数据
       for (ConsumerRecord<String, String> record : poll) {
           System.out.println(record);
       }
   }
}

指定时间消费

public static void main(String[] args) {
   Properties properties = new Properties();
   properties.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.0.120:9092");
   properties.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
   properties.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
   properties.put(ConsumerConfig.GROUP_ID_CONFIG, "first_01");
   KafkaConsumer<String, String> consumer = new KafkaConsumer<>(properties);
   List<String> topics = new ArrayList<>();
   topics.add("first");
   consumer.subscribe(topics);

   // 指定位置进行消费
   Set<TopicPartition> partitions = consumer.assignment();// 分区集合
   // 保证分区分配方案已经制定完成
   while (partitions.size() == 0) {
       consumer.poll(Duration.ofSeconds(1));// 拉取一次数据
       partitions = consumer.assignment();// 更新
   }

   // 把时间转换为对应的offset
   Map<TopicPartition, Long> map = new HashMap<>();
   for (TopicPartition partition : partitions) {
       map.put(partition, System.currentTimeMillis() - 24 * 3600 * 1000); // 消费分区一天前到现在的数据
   }
   Map<TopicPartition, OffsetAndTimestamp> offsets = consumer.offsetsForTimes(map);// 通过时间获取offset的集合
   for (TopicPartition partition : partitions) {
       OffsetAndTimestamp offsetAndTimestamp = offsets.get(partition);
       consumer.seek(partition, offsetAndTimestamp.offset()); // 指定消费的offset
   }

   while (true) {
       ConsumerRecords<String, String> poll = consumer.poll(Duration.ofSeconds(5)); // 间隔5秒拉取数据
       for (ConsumerRecord<String, String> record : poll) {
           System.out.println(record);
       }
   }
}

漏消费和重复消费

**重复消费：**已经消费的数据但是offset没有提交

**漏消费：**先提交offset后消费，有可能造成数据的漏消费

出现这两种情况我们可以通过kafka的事务来解决

消费者事务

如果想完成consumer端的精准一次性消费，那么需要 kafka消费端将消费过程和提交offset过程做原子绑定。 此时我们需要将kafka的offset保存到支持事务的自定义介质如MySQL中。

数据积压，消费者如何提高吞吐量

在kafka中，默认的日志储存时间为7天，超过了7天数据就会被删除。如果你消费一个主题的数据比如消费的了4天，但是只消费了数据量的20%，而到了7天时这个主题里面的数据还没有被消费完而将会删除时，这种情况可以加快消费速度。

1. 如果是kafka的消费能力不足，则可以考虑增加topic的分区数，并且同时提升消费组的消费者数量，消费者数=分区数，两者缺一不可

2. 如果是下游的数据处理不及时，提高每批次拉取的数量。 批次拉取数量过少(拉取数据/处理时间 < 生产速度)，使处理的数据小于生产的数据，也会造成数据积压

源码地址：https://gitee.com/peachtec/hxz-study

Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
Kafka系列之：Dead Letter Queue死信队列DLQ 快乐骑行^_^ Kafka Kafka系列 Dead Letter Queue 死信队列 DLQ
Kafka系列之：DeadLetterQueue死信队列DLQ一、死信队列二、参数errors.tolerance三、创建死信队列主题四、在启用安全性的情况下使用死信队列更多内容请阅读博主这篇博客：Kafka系列之：KafkaConnect深入探讨-错误处理和死信队列一、死信队列死信队列（DLQ）仅适用于接收器连接器。当一条记录以JSON格式到达接收器连接器时，但接收器连接器配置期望另一种格式，如
消息中间件巡检搬砖小常消息中间件运维笔记 RocketMQ kafka 中间件巡检运维
除资源使用情况外，消息中间件RocketMQ、kafka还可以巡检哪些？一、RocketMQ巡检1、检查broker写入耗时是否有压力2、检查brokerbusy的数量与频率3、主题发送TPS、发送错误率巡检4、从节点消费情况检查5、集群各broker消息流转情况巡检二、Kafka巡检1、检查是否有分区发生ISR频繁扩张收缩2、检查分区leader选举值是否处于正常水平3、检查controller
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
Kafka系列之：安装具有安全认证的kafka-2.8.2分布式集群快乐骑行^_^ 大数据 Kafka系列安全认证 kafka-2.8.2 分布式集群
Kafka系列之：安装具有安全认证的kafka-2.8.2分布式集群一、下载Zookeeper3.7.1和Kafka2.8.2二、解压Zookeeper3.7.1和Kafka2.8.2三、安装Zookeeper3.7.1详细步骤1.修改zookeeper配置文件2.创建zookeeper数据目录3.zookeeper创建myid4.设置zookeeper访问kafka认证5.拷贝zookeeper
rdkafka线程过多_我是如何处理大并发量订单处理的 KafKa部署总结 weixin_39574928 rdkafka线程过多
今天要介绍的是消息中间件KafKa，应该说是一个很牛的中间件吧，背靠Apache与很多有名的中间件搭配起来用效果更好哦，为什么不用RabbitMQ，因为公司需要它。网上已经有很多怎么用和用到哪的内容，但结果很多人都倒在了入门第一步环境都搭不起来，可谓是从了解到放弃，所以在此特记录如何在linux环境搭建，windows中配置一样，只是启动运行bat文件。想要用它就先必须了解它能做什么及能做到什么程
【Kafka】Failed to send data to Kafka: Expiring 30 record(s) for xxx 732453 ms has passed since last 九师兄 kafka big data zookeeper
文章目录1.美图2.背景2.尝试方案13.尝试解决24.场景再现25.场景46.场景57.场景78.场景8M.拓展本文为博主九师兄（QQ:541711153欢迎来探讨技术）原创文章，未经允许博主不允许转载。1.美图问题与【Flink】Flink写入kafka报错FailedtosenddatatoKafka:Expiring4record(s)for20001mshaspassed重复了。2.背景
【Flink】flink Kafka报错 : Failed to send data to Kafka: This server is not the leader for that topic-pa 九师兄 flink kafka 大数据
1.背景出现这个问题的背景请参考：【Kafka】FailedtosenddatatoKafka:Expiring30record(s)forxxx732453mshaspassedsincelast[2020-09-0513:16:09
【kafka】在Linux系统中部署配置Kafka的详细用法教程分享景天科技苑 linux基础与进阶 shell脚本编写实战 kafka linux 分布式 kafka安装配置 kafka优化
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，PyQt5和Tkinter桌面应用开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，云原生K8S，Prometheus监控，数据分析，Django
C/C++ 使用librdkafka库实现的生产者
InstallingprebuiltpackagesOnMacOSX：brewinstalllibrdkafkaOnDebianandUbuntu：aptinstalllibrdkafka-devOnRedHat,CentOS,Fedora：yuminstalllibrdkafka-develInstallinglibrdkafkausingvcpkg：#Installvcpkgifnotalre
使用 Docker 搭建 Python（Flask/CUDA AI）开发环境——AI教你学Docker
使用Docker搭建Python（Flask/CUDAAI）开发环境及常用中间件配置详解本指南适用于用Docker快速搭建Python（FlaskWeb应用或包含CUDA的AI开发环境）开发环境，并集成常用中间件服务如MySQL、Redis、Kafka。适合个人开发、本地测试和小团队协作。一、项目目录结构建议project-root/├──app/#Python应用源码目录│├──Dockerfi
Kafka如何做到消息不丢失野老杂谈全网最全IT公司面试宝典 kafka 分布式
一、三种消息传递语义（MessageDeliverySemantics）：核心是“消息被消费处理的次数”Kafka的三种传递语义本质上描述的是“一条消息从生产到最终被消费者处理完成，可能出现的次数”，这由生产者的消息写入可靠性和消费者的offset提交策略共同决定。1.Atmostonce（最多一次）定义：消息可能丢失，但绝不会被重复处理。触发场景：消费者先提交offset，再处理消息。流程：消费
各种消息队列经典问题解决方案——消息丢失、顺序消费、消息积压、重复消费 EyeDropLyq rabbitmq rocketmq kafka
写在开头：对于消息队列这种中间件来说，只要进入消息队列就会有几个绕不开的问题，比如：消息丢失、顺序消费、消息积压、重复消费，下面就来讲解一下市面上比较常见的各个不同的消息队列产品针对这四个问题的解决方案。1、Kafka消息丢失解决方案对于Kafka这个消息队列来说，消息丢失的环节有下面的几个地方：1、消息生产者发送消息给Broker的时候数据丢失2、Broker异常导致Broker中的数据丢失3、
Kafka浅学文文Tao kafka java 分布式
Kafka应用场景？异步解耦流量消锋Kafka消息队列特点？Kafka吞吐量高：因为他存储数据时，磁盘顺序存储，磁盘的顺序存储速度很快。Kafka持久化消息：这些消息日志可以被重复读取和永久保留可以运行时动态扩展伸缩：Kafka是分布式系统：它以集群的方式运行，早期依赖Zookeeper对于Kafka的作用是什么？Zookeeper是分布式协调服务。Zookeeper作用：用于在Kafka集群中不
详解Kafka重平衡机制详解
Kafka的重平衡机制（Rebalance）是确保消费者组内成员动态变化（如新成员加入、现有成员退出或崩溃、订阅主题分区数变化）时，分区所有权能合理、公平地重新分配的核心机制。其目标是保证所有分区都有消费者处理，且负载相对均衡。一、重平衡的触发条件1.消费者加入组：新消费者启动并加入已存在的消费者组。消费者崩溃后重新恢复并重新加入组。2.消费者离开组：消费者主动关闭（发送LeaveGroup请求）
vivo Pulsar 万亿级消息处理实践（3）-KoP指标异常修复
作者：vivo互联网大数据团队-ChenJianbo本文是《vivoPulsar万亿级消息处理实践》系列文章第3篇。Pulsar是Apache基金会的开源分布式流处理平台和消息中间件，它实现了Kafka的协议，可以让使用KafkaAPI的应用直接迁移至Pulsar，这使得Pulsar在Kafka生态系统中更加容易被接受和使用。KoP提供了从Kafka到Pulsar的无缝转换，用户可以使用Kafka
kafka 每条消息只会保存到某一个分区 scan724 kafka
也就是说Kafka的消息组织方式实际上是三级结构：主题-分区-消息。主题下的每条消息只会保存在某一个分区中，而不会在多个分区中被保存多份。官网上的这张图非常清晰地展示了Kafka的三级结构，如下所示其实分区的作用就是提供负载均衡的能力，或者说对数据进行分区的主要原因，就是为了实现系统的高伸缩性（Scalability）。不同的分区能够被放置到不同节点的机器上，而数据的读写操作也都是针对分区这个粒度
Kafka的优势有哪些？经常应用在哪些场景？
Kafka的优势有哪些？经常应用在哪些场景？Kafka的优势比较多如多生产者无缝地支持多个生产者、多消费者、基于磁盘的数据存储、具有伸缩性、高性能轻松处理巨大的消息流。多用于开发消息系统，网站活动追踪、日志聚合、流处理等方面。今天我们一起来学习Kafka的相关知识吧！一、Kafka的优势有哪些？1.多生产者可以无缝地支持多个生产者，不论客户端在使用单个主题还是多个主题。2.多消费者支持多个消费者从
kafka 收不到消息_Kafka 常见问题汇总 weixin_39554434 kafka 收不到消息
Kafka常见问题汇总1.Kafka如何做到高吞吐、低延迟的呢？这里提下Kafka写数据的大致方式：先写操作系统的页缓存(PageCache),然后由操作系统自行决定何时刷到磁盘。因此Kafka达到高吞吐、低延迟的原因主要有以下4点：页缓存是在内存中分配的，所以消息写入的速度很快。Kafka不必和底层的文件系统进行交互，所有繁琐的I/O操作都由操作系统来处理。Kafka采用追加写的方式，避免了磁盘
kafka partition分配_走近kafka-Partition分配与消息可靠性编辑部小李 kafka partition分配
Kafka的高可用源于其多个副本(replication)。拥有多个副本，那么带来的问题就是数据怎么同步。我们都知道数据是存放在partition物理目录下的文件里面。通过前面几节的介绍，我们也知道消息过来后直接跟partitionleader交互，然后由leader进行数据同步。由于partition的replication机制，在kafka看来partition不分leader和followe
Kafka最新版本（3.x/4.x）性能优化
在Kafka的最新版本（截至2025年，主流为3.x/4.x）中，性能优化需要从集群架构、Broker配置、Topic设计、生产者/消费者调优、存储层优化等多个维度综合考虑。以下是基于最新特性的核心优化措施：一、集群架构优化合理规划Broker数量与分布每个Broker承载的分区数：推荐每个Broker管理100-500个分区（超大规模集群可放宽至1000个），避免单Broker分区过多导致负载不
ClickHouse高频面试题野老杂谈数据库
ClickHouse高频面试题1、简单介绍一下ClickHouse2、ClickHouse具有哪些特点3、ClickHouse作为一款高性能OLAP数据库，存在哪些不足4、ClickHouse有哪些表引擎5、介绍下Log系列表引擎应用场景共性特点不支持6、简单介绍下MergeTree系列引擎7、简单介绍下外部集成表引擎ODBCJDBCMySQLHDFSKafkaRabbitMQ8、ClickHou
1-Kafka介绍及常见应用场景 sql2008help kafka 分布式
Kafka介绍ApacheKafka是一个开源的分布式流处理平台，最初由LinkedIn开发，后捐赠给Apache软件基金会。它被设计用于高吞吐量、低延迟、可水平扩展地处理实时数据流。官网地址是：https://kafka.apache.org/以下是Kafka的核心介绍：核心概念消息系统(MessagingSystem)Kafka充当生产者和消费者之间的消息中间件，解耦系统，确保可靠的数据传递。
kafka单个生产者向具有多个partition的topic写数据（写入分区策略）
最近碰到生产环境现象一个flink程序单并行度（一个生产者），对应topic为8分区。每个分区都能消费到生产出的数据。整理知识点如下生产者写入消息到topic，kafka将依据不同的策略将数据分配到不同的分区中1.轮询分区策略2.随机分区策略3.按key分区分配策略4.自定义分区策略1.1轮询分区策略默认的策略，也是使用最多的策略，可以最大限度的保证所有消息平均分配到分区里面如果在生产消息时，ke
kafka系列 ---安装kafka+SASL配置心有栖 kafka专栏 kafka java
文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言这篇主要讲如何安装kafka+配置SASL安全验证，之前网上一些文章要么没有配置SASL，要么本身存在一些问题，这里主要把正确的配置方案放上来，后续会讲讲遇到的一些问题和该如何解决。一、安装kafka官网的quickstart有最新安装教程，想安装最新版可以去官网，目前我使用的是kafka2.6.0。这里的所有操作都是在
Kafka 数据倾斜原因、影响与权威解决方案
一、数据倾斜的概念在Kafka环境中，数据倾斜是指数据在主题（Topic）的各个分区（Partition）之间分布不均匀的状况。理想情况下，分区设计期望数据能在各个分区均衡分布，如此一来，消费者组内的消费者便可均衡地从不同分区消费数据，从而充分利用系统资源实现高效并行处理。但当数据倾斜发生时，部分分区会承载大量数据，而其他分区的数据量则相对较少。二、数据倾斜产生的原因（一）生产者端原因分区键（Pa
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D