黑桃SevenPig

kafka-08-SpringBoot Kafka实战

注意：
当前的 Kafka 版本无法保证每个消息“只被保存一次”。现实中的很多应用程序在消息里加入唯一标识符，用于检测重复消息，消费者在读取消息时可以对它们进行清理。应用程序需要可以做到消息的“幂等”，也就是说，即使出现了重复消息，也不会对处理结果的正确性造成负面影响。

整合SpringBoot kafka，加入依赖

        
            org.springframework.boot
            spring-boot-starter-web
        

        
            org.springframework.kafka
            spring-kafka

1. 新建或者更新主题

KafkaConfig.java

/**
 * Description: kafka相关配置
 *
 * @author Xander
 * datetime: 2021-01-08 17:40
 */
@Configuration
public class KafkaConfig {
    /**
     * 主题
     */
    public static final String TOPIC_SPRING_KAFKA = "SpringKafka";

    /**
     * 新建或者更新Topic并设置分区数为3，分区副本数为1，
     * 这里设置仅仅时测试使用，主题的分区数和每个分区的副本数，需要根据业务场景和硬件条件去考虑
     * 
     * 我们也可以不手动创建topic，因为kafka server.properties 配置文件中 auto.create.topics.enable 默认为 true，
     * 表示如果主题不存在，则自动创建主题，
     * 分区数量由kafka server.properties 配置文件中 num.partitions 指定，默认是 1
     * 所以如果是自动创建主题，则默认的分区数为1，分区副本数为1
     *
     * @return
     */
    @Bean
    public NewTopic newOrUpdateTopic() {
        // 通过TopicBuilder新建或者update Topic，
        // 注意：主题的分区只能新增，不能减少分区
        return TopicBuilder.name(TOPIC_SPRING_KAFKA).replicas(1).partitions(3).build();
    }

}

我们也可以不手动创建主题，因为kafka server.properties 配置文件中 auto.create.topics.enable 默认为 true，表示如果主题不存在，则自动创建主题，分区数量由kafka server.properties 配置文件中 num.partitions 指定，默认是 1，所以如果这里不手动创建主题的话，kafka如果检查到主题不存在，会自动新建分区数和副本数都为1的主题。

注意： 如果主题已存在，NewTopic如果要update已存在的主题，分区数只能大于等于已有的分区数，不能减少分区。

2. SpringBoot kafka 配置

常用的生产者和消费者相关的配置都列出来，并表明了注释。
application.yml

spring:
  kafka:
#    kafka集群broker列表 host1:por1,host2:port2,host3:port3
    bootstrap-servers: docker01:9092

########生产者配置########
    producer:
#     compression-type 消息的压缩算法
#     默认情况下是 none，消息发送时不会被压缩。 该参数可以设置为 none, gzip, snappy, lz4, zstd
      compression-type: none
#     acks 有多少个分区副本收到消息，生产者才会认为消息写入是成功的，只能选（0、1、all）
      acks: all
#     bufferMemory 生产者内存缓冲区的大小，下面是32MB
      bufferMemory: 33554432
#     retries 发生临时性的错误（比如分区找不到首领）重试次数，
#      默认情况下，生产者会在每次重试之间等待 100 ms，可以通过 retry.backoff.ms 参数来改变这个时间间隔
      retries: 3
#      key和value 的序列化器，这两个默认是 StringSerializer.class
      key-serializer: org.apache.kafka.common.serialization.StringSerializer
      value-serializer: org.apache.kafka.common.serialization.StringSerializer
#      batch-size 批次大小，按照字节数计算
      batch-size: 1024
      properties:
#        自定义分区器
#        partitioner:
#          class: com.xander.kafka.partitioner.XdPartitioner
#        request.timeout.ms 在发送数据时等待服务器返回响应的时间
        request:
          timeout:
            ms: 1000
#        发送批次之前等待更多消息加入批次的时间
#        linger.ms为0，表示生产者每条消息都直接提交给kafka，不等待批次，这时候batch-size其实就没用了
        linger:
          ms: 100
#      retry.backoff.ms  每次重试之间的时间间隔，默认是100ms，这里配置50ms
        retry:
          backoff:
            ms: 50
#   max.in.flight.requests.per.connection 在收到服务器响应之前可以发送多少个消息，如果不需要保证消息顺序性的场景，建议不用配置该属性
#  把它设为 1 可以保证消息在同一个生产者的某一个分区上，是按照发送的顺序写入服务器的，即使发生了重试。但是会降低Kafka的吞吐量
        max:
          in:
            flight:
              requests:
                per:
                  connection: 1
#  max.block.ms 缓冲区满时的最大阻塞时间，在阻塞时间达到 max.block.ms 时，生产者会抛出超时异常。
          block:
            ms: 200

########### 消费者配置 ###############
    consumer:
#  auto-offset-reset: 没有偏移量的分区或者偏移量无效时如何处理
# earliest: 消费者将从起始位置读取分区的记录
# latest: 消费者将从最新的记录开始读取数据
# none:只要有一个分区不存在已提交的offset,就抛出异常;
      auto-offset-reset: earliest
# group-id 默认的消费者群组
      group-id: defaultGroup
# enable.auto.commit 是否自动提交偏移量，
      enableAutoCommit: true
#      自动提交偏移量的间隔时间，100ms
      autoCommitInterval: 100ms
#  单次请求能够返回的记录数量
      max-poll-records: 3
#  fetch.max.wait.ms 指定获取记录的最大等待时间，这里是100ms
      fetchMaxWait: 100ms
#      key和value 的反序列化器，这两个默认是 StringSerializer.class
      key-serializer: org.apache.kafka.common.serialization.StringSerializer
      value-serializer: org.apache.kafka.common.serialization.StringSerializer
      properties:
#        fetch.min.bytes 从服务器获取记录的最小字节数
        fetch:
          min:
            bytes: 102400
#        request.timeout.ms 消费者请求超时时间
        request:
          timeout:
            ms: 1000
#        会话过期时间
        session:
          timeout:
            ms: 120000
#       向协调器发送心跳的频率
        heartbeat:
          interval:
            ms: 40000
# 如果需要批量消费，则需要修改 spring.kafka.listener.type = batch，默认是 single，单次消费单条消息
#    listener:
#      type: batch
#   手动提交偏移量时：消费者消息确认模式改为手动确认
#    listener:
#      ack-mode: manual

3. 生产者向kafka写数据

3.1 发送并忽略结果

我们把消息发送给服务器，但并不关心它是否正常到达。大多数情况下，消息会正常到达，因为 Kafka 是高可用的，而且生产者会自动尝试重发。不过，使用这种方式有时候也会丢失一些消息。因为我们会忽略返回值，所以无法知道消息是否发送成功。
如果允许丢失一小部分消息，并且不关心发送结果，那么可以使用这种发送方式。这种方式可以达到最大的响应速度和吞吐性能。

3.2 同步发送

返回一个 Future 对象，然后调用 Future 对象的 get() 方法等待 Kafka 响应。如果服务器返回错误， get() 方法会抛出异常。如果没有发生错误，我们会得到一个 RecordMetadata 对象，可以用它获取消息的主题、分区和偏移量等信息。

3.3 异步发送

在异步发送消息方式中生产者提供了回调支持，可以在回调中处理异常和获取消息的主题、分区和偏移量等信息

Kafka生产者

/**
 * Description: Kafka生产者
 *
 * @author Xander
 * datetime: 2021-01-10 10:29
 */
@RestController
@RequestMapping("/kafka")
public class KafkaController {
    Logger logger = LoggerFactory.getLogger(this.getClass());

    @Autowired
    private KafkaTemplate kafkaTemplate;

    // 发送消息
    @GetMapping("/{msg}")
    public void send(@PathVariable String msg) throws ExecutionException, InterruptedException {
        long start = Instant.now().toEpochMilli();
        this.logger.info("------start");
        // 发送并忽略结果
        // this.sendAndForget(msg);
        // 同步发送
        this.sendSync(msg);
        // 异步发送
        // this.sendAsync(msg);
        this.logger.info("------end: " + (Instant.now().toEpochMilli() - start));
    }

    /**
     * 发送并忽略结果
     *
     * @param msg
     */
    private void sendAndForget(String msg) {
        kafkaTemplate.send(KafkaConfig.TOPIC_SPRING_KAFKA, msg);
    }

    /**
     * 同步发送
     *
     * @param msg
     */
    private void sendSync(String msg) throws ExecutionException, InterruptedException {
        ListenableFuture> future = kafkaTemplate.send(KafkaConfig.TOPIC_SPRING_KAFKA, msg);
        SendResult sendResult = future.get();
        RecordMetadata recordMetadata = sendResult.getRecordMetadata();
        this.logger.info("发送成功：" + recordMetadata.topic() + "--" + recordMetadata.partition() + "---" + recordMetadata.offset());
    }

    /**
     * 异步发送
     *
     * @param msg
     */
    private void sendAsync(String msg) {
        kafkaTemplate.send(KafkaConfig.TOPIC_SPRING_KAFKA, msg).addCallback(new ListenableFutureCallback>() {
            @Override
            public void onFailure(Throwable throwable) {

            }

            @Override
            public void onSuccess(SendResult sendResult) {
                RecordMetadata recordMetadata = sendResult.getRecordMetadata();
                logger.info("发送成功：" + recordMetadata.topic() + "--" + recordMetadata.partition() + "---" + recordMetadata.offset());
            }
        });
    }
}

3.1.2 发送成功

发送下面的请求：
http://localhost:8080/kafka/123

用 kafka-console-consumer.sh 工具订阅 SpringKafka 主题，可以看到消息 '123' 发送成功

[root@docker01 ~]# /usr/local/kafka_2.13-2.6.0/bin/kafka-console-consumer.sh --bootstrap-server 192.168.8.31:9092 --topic SpringKafka
123

4. 消费者从kafka读数据

**说明：**这里只演示每次消费单条记录的案例，如果要批量消费记录，需要修改 spring.kafka.listener.type = batch，默认是 single (单次消费单条消息)。
批量消费，请参考 Springboot kafka参考文档: https://docs.spring.io/spring-kafka/docs/current/reference/html/#kafka-listener-annotation

Springboot kafka参考文档的批量消费举例

@KafkaListener(id = "listMsg", topics = "myTopic", containerFactory = "batchFactory")
public void listen14(List> list) {
    ...
}

@KafkaListener(id = "listMsgAck", topics = "myTopic", containerFactory = "batchFactory")
public void listen15(List> list, Acknowledgment ack) {
    ...
}

@KafkaListener(id = "listMsgAckConsumer", topics = "myTopic", containerFactory = "batchFactory")
public void listen16(List> list, Acknowledgment ack, Consumer consumer) {
    ...
}

@KafkaListener(id = "listCRs", topics = "myTopic", containerFactory = "batchFactory")
public void listen(List> list) {
    ...
}

@KafkaListener(id = "listCRsAck", topics = "myTopic", containerFactory = "batchFactory")
public void listen(List> list, Acknowledgment ack) {
    ...
}

4.1 自动提交偏移量

如果消费者属性 enable.auto.commit 被设为 true ，那么每过 auto.commit.interval.ms (提交时间间隔，默认值是 5s )，消费者会自动把上一次轮询接收到的最大偏移量提交上去。
自动提交是在轮询里进行的，消费者每次在进行轮询时会检查是否该提交偏移量了，如果是，那么就会提交从上一次轮询返回的偏移量。

自动提交会可能会导致消息重复消费
假设我们仍然使用默认的 5s 提交时间间隔，在最近一次提交之后的 3s 发生了再均衡，再均衡之后，消费者从最后一次提交的偏移量位置开始读取消息。这个时候偏移量已经落后了 3s ，所以在这 3s 内到达的消息会被重复处理。

每次消费单个记录，并在轮询中自动提交偏移量

/**
 * Description: Kafka消费者
 *
 * @author Xander
 * datetime: 2021-01-10 10:32
 */
@Component
public class KafkaConsumer {
    Logger logger = LoggerFactory.getLogger(this.getClass());

    /**
     * 每次消费单个记录
     *
     * @param record
     */
    @KafkaListener(topics = {KafkaConfig.TOPIC_SPRING_KAFKA})
    public void onListen(ConsumerRecord record) {
        this.logger.info("消费单个记录----- 主题：" + record.topic() + "-分区：" + record.partition() + "-key：" + record.key()
                + "-value：" + record.value() + "-偏移量：" + record.offset());
    }


}

4.2 手动提交偏移量

消费者也可以手动提交偏移量，在每处理成功一条消息后就手动提交一次偏移，这能够保证已经处理的消息都被准确的提交。但是在前面说过，当前的 Kafka 版本无法保证每个消息“只被保存一次”，例如：当生产者发送消息到broker，broker发送响应的时候，因为网络关系，生产者没有接收到正确的响应，这时候，会发生重试，再次发送消息，这时，就可能产生重复的消息。

防止消息重复消费：
建议在生产中对消息添加唯一标识，在消费者消费消息的时候，对唯一标识进行判断，是否已经消费了该消息，如果已经消费过，则不做任何处理，从而达到防止消息重复消费的目的。

手动提交偏移量，需要配置 enable.auto.commit = false 取消自动提交，并且 spring.kafka.listener.ack-mode = manual 消费者消息确认模式改为手动确认

/**
 * Description: Kafka消费者，手动提交偏移量，
 * 需要配置 enable.auto.commit = false 取消自动提交，并且 spring.kafka.listener.ack-mode = manual 消费者消息确认模式改为手动确认
 *
 * 提示：手动提交偏移量，能够最大程度减少重复消费消息，但是在消息未处理完成，提前提交偏移量，也可能导致消息丢失
 * 关于提交偏移量，请参考下面文章的第6节
 * [CSDN同步：kafka-05-消费者] https://blog.csdn.net/qq_20633779/article/details/112335534
 *
 * @author Xander
 * datetime: 2021-01-10 10:32
 */
@Component
public class KafkaConsumerWithAck {
    Logger logger = LoggerFactory.getLogger(this.getClass());

    /**
     * 每次消费单个记录，并且手动提交偏移量
     *
     *
     * @param record
     */
    @KafkaListener(topics = {KafkaConfig.TOPIC_SPRING_KAFKA})
    public void onListenWithAck(ConsumerRecord record, Acknowledgment ack) throws InterruptedException {
        this.logger.info("消费单个记录----- 主题：" + record.topic() + "-分区：" + record.partition() + "-key：" + record.key()
                + "-value：" + record.value() + "-偏移量：" + record.offset());
        //模拟业务逻辑处理。。。
        this.logger.info("业务处理中...");
        TimeUnit.SECONDS.sleep(10);
        // 手动提交偏移量，表示这个偏移量之前的所有记录已经被处理
        ack.acknowledge();
    }
}

4.3 模拟MQ的死信队列

在遇到可重试错误时，把错误写入一个独立的主题, 一个独立的消费者群组负责从该主题上读取错误消息，并进行重试，这种模式有点像其他消息系统里的 dead-letter-queue

/**
 * Description: Kafka消费者: 消息转发
 * 在遇到可重试错误时，把错误写入一个独立的主题, 一个独立的消费者群组负责从该主题上读取错误消息，并进行重试，这种模式有点像其他消息系统里的 `dead-letter-queue`
 *
 * @author Xander
 * datetime: 2021-01-10 10:32
 */
@Component
public class KafkaConsumerSendTo {
    Logger logger = LoggerFactory.getLogger(this.getClass());

    /**
     * 消息转发
     *
     * @param record
     */
    @KafkaListener(topics = {KafkaConfig.TOPIC_SPRING_KAFKA}, groupId = "sendToGroupId")
    @SendTo("test")
    public String onListen(ConsumerRecord record) {
        this.logger.info("转发消息到test主题 ----- 主题：" + record.topic() + "-分区：" + record.partition() + "-key：" + record.key()
                + "-value：" + record.value() + "-偏移量：" + record.offset());
        // return的数据就是转发到 test 主题的消息
        return record.value();
    }


}

5. 自定义分区器

发送消息时候，kafkaTemplate会通过传入的主题topic、分区partition、键key、值value，其中分区partition和键key是可选的，创建一个 ProducerRecord 对象。

如果在 ProducerRecord 对象里指定了分区，那么分区器就不会再做任何事情，直接把指定的分区返回。
如果没有指定分区，那么分区器会根据 key 来选择一个分区。
选好分区以后，生产者就知道该往哪个主题和分区发送这条记录了。
如果 key 为 null ，并且使用了默认的分区器，那么记录将被随机地发送到主题内各个可用的分区上。分区器使用 轮询（Round Robin ）算法 将消息均衡地分布到各个分区上。
如果键不为空，并且使用了默认的分区器，那么 Kafka 会 对键进行散列，然后根据散列值把消息映射到特定的分区上。这里的关键之处在于，同一个键总是被映射到同一个分区上，所以在进行映射时，我们会使用主题所有的分区，而不仅仅是可用的分区。这也意味着，如果写入数据的分区是不可用的，那么就会发生错误。但这种情况很少发生。

上面说的是默认的分区器，我们也可以根据业务场景自定义分区器。
新建一个 org.apache.kafka.clients.producer.Partitioner 接口的实现类 com.xander.kafka.partitioner.XdPartitioner，然后配置
spring.kafka.producer.properties.partitioner.class= com.xander.kafka.partitioner.XdPartitioner

自定义Kafka分区器，每条消息都发送到分区0

/**
 * Description: 自定义Kafka分区器，每条消息都发送到分区0
 *
 * @author Xander
 * datetime: 2021-01-13 19:41
 */
public class XdPartitioner implements Partitioner {

    @Override
    public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {
        //这里可以根据业务场景将消息路由到不同的分区
        // return 0 表示每条消息都发送到分区0
        return 0;
    }

    @Override
    public void close() {

    }

    @Override
    public void configure(Map configs) {

    }
}

依次发送请求：
http://localhost:8080/kafka/111
http://localhost:8080/kafka/222
http://localhost:8080/kafka/333

通过日志打印可以看到，发送的消息都被路由到分区0上了，打印的日志格式是 “发送成功：主题--分区---偏移量”。

2021-01-13 19:55:27.957  INFO 17384 --- [nio-8080-exec-1] c.xander.kafka.producer.KafkaController  : ------start
2021-01-13 19:55:28.192  INFO 17384 --- [nio-8080-exec-1] c.xander.kafka.producer.KafkaController  : 发送成功：SpringKafka--0---0
2021-01-13 19:55:28.193  INFO 17384 --- [nio-8080-exec-1] c.xander.kafka.producer.KafkaController  : ------end: 236
2021-01-13 19:55:34.935  INFO 17384 --- [nio-8080-exec-2] c.xander.kafka.producer.KafkaController  : ------start
2021-01-13 19:55:35.037  INFO 17384 --- [nio-8080-exec-2] c.xander.kafka.producer.KafkaController  : 发送成功：SpringKafka--0---1
2021-01-13 19:55:35.038  INFO 17384 --- [nio-8080-exec-2] c.xander.kafka.producer.KafkaController  : ------end: 103
2021-01-13 19:55:38.163  INFO 17384 --- [nio-8080-exec-4] c.xander.kafka.producer.KafkaController  : ------start
2021-01-13 19:55:38.268  INFO 17384 --- [nio-8080-exec-4] c.xander.kafka.producer.KafkaController  : 发送成功：SpringKafka--0---2
2021-01-13 19:55:38.268  INFO 17384 --- [nio-8080-exec-4] c.xander.kafka.producer.KafkaController  : ------end: 105

6. 业务场景举例

一个应用程序在很多情况下需要往 Kafka 写入消息：

记录用户的活动（用于审计和分析）、
记录度量指标、
保存日志消息、
记录智能家电的信息、
与其他应用程序进行异步通信、
缓冲即将写入到数据库的数据，等等。

多样的使用场景意味着多样的需求：

是否每个消息都很重要？
是否允许丢失一小部分消息？
偶尔出现重复消息是否可以接受？
是否有严格的延迟和吞吐量要求？

6.1 不允许的消息丢失或消息重复，允许一点点的延迟

在信用卡事务处理系统里，消息丢失或消息重复是不允许的，可以接受的延迟最大为 500ms ，对吞吐量要求较高我们希望每秒钟可以处理一百万个消息。

这种情况下，实现方案： 建议生产者端可以使用 同步发送 解决消息丢失问题，同时给消息 添加唯一标识，来解决消息的重复消费问题。

6.2 允许丢失少量的消息或出现少量的消息重复，追求高响应和高吞吐

保存网站的点击信息是另一种使用场景。在这个场景里，允许丢失少量的消息或出现少量的消息重复，只要不影响用户体验就行，在数以千万计的点击量中，丢失少量的消息并不会有什么影响。

这种情况下，实现方案： 建议生产者使用 发送并忘记的方式 来发送消息，如果系统要对发送失败的消息进行处理，则可以使用 异步发送 的方式，在回调中处理异常，以追求最大的吞吐量。

代码：
https://github.com/wengxingxia/kafka-springboot.git

[慕课手记同步：kafka-08-SpringBoot Kafka实战] https://www.imooc.com/article/314288

欢迎关注文章同步公众号"黑桃"

大数据领域 Kafka 入门指南：从安装到基础使用大数据洞察大数据与AI人工智能大数据 kafka linq ai
大数据领域Kafka入门指南：从安装到基础使用关键词：Kafka、消息队列、分布式系统、大数据处理、实时数据流、生产者消费者模型、ZooKeeper摘要：本文是一篇全面介绍ApacheKafka的入门指南，从基本概念到实际应用。我们将详细讲解Kafka的核心架构、工作原理，并提供从安装配置到基础使用的完整实践指导。文章包含Kafka的生产者-消费者模型实现、集群部署策略、性能优化技巧，以及在大数据
【算法-贪心算法-python】柠檬水找零檀越@新空间 P1 算法与数据结构 s1 Python 算法贪心算法 python
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kuan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
【Kafka】深入理解 Kafka MirrorMaker2 - 理论篇
文章目录MirrorMaker2架构：不止是一个工具，更是一个框架工作原理揭秘1.远程主题（RemoteTopics）2.消费位移同步（OffsetSync）3.工作流图核心配置参数详解总结实战注意事项与最佳实践最近，我们团队启动了一个新项目，需要从零开始搭建一套高可用的Kafka集群。谈到高可用，异地容灾是绕不开的话题。我们选择了Kafka官方推荐的MirrorMaker2(MM2)作为我们的跨
【Kafka】深入理解 Kafka MirrorMaker2 - 实战篇 showyoui Kafka kafka 分布式开源大数据容灾
文章目录一、把“家伙事儿”都备齐二、部署其实很简单三、配置MirrorMaker2四、修改启动脚本五、集群启动与验证六、这集群“结实”吗？聊聊它的高可用它没有“大脑”，但活得很好极限测试：干掉两个节点会怎样？写在最后最近在跟Kafka死磕，想着搭一个跨机房的数据同步方案，MirrorMaker2自然就成了首选。所以，我决定自己从头到尾摸索一遍，把整个过程记录下来，权当是写给未来自己的备忘录，也希望
filebeat改造支持rocketmq 余很多之很多 go Java rocketmq
继续分享下以前在gitchat上发布的文章：filebeat改造支持rocketmq1.概述1.1问题概述现在越来越多的日志采集使用FileBeat，FileBeat是个轻量型日志采集器，采用Go语言实现，性能稳健，占用资源少。FileBeat现在支持采集的日志内容发送到Redis、Elasticsearch、Kafka、Logstash。那么我们如果想通过FileBeat采集日志到RocketM
Apache Kafka 学习笔记
一、Kafka简介1.1Kafka是什么？Kafka是一个高吞吐、可扩展、分布式的消息发布-订阅系统，主要用于：日志收集与处理流式数据处理事件驱动架构实时分析管道最初由LinkedIn开发，后捐赠给Apache基金会。1.2Kafka的核心特性特性描述高吞吐每秒百万级消息处理能力，依赖顺序写磁盘、批量处理分布式支持水平扩展，多个Broker组成集群持久化消息写入磁盘（通过segmentfiles+
Kafka 集群架构与高可用方案设计（一）计算机毕设定制辅导-无忧 #Kafka kafka 架构分布式
Kafka集群架构与高可用方案设计的重要性在大数据和分布式系统的广阔领域中，Kafka已然成为了一个中流砥柱般的存在。它最初由LinkedIn开发，后捐赠给Apache软件基金会并成为顶级项目，凭借其卓越的高吞吐量、可扩展性以及持久性，被广泛应用于日志收集、实时数据处理、流计算、数据集成等诸多关键领域。在日志收集场景下，以大型互联网公司为例，每天都会产生海量的日志数据，如用户的访问记录、系统操作日
Kafka 集群架构与高可用方案设计（二）计算机毕设定制辅导-无忧 #Kafka kafka 架构分布式
Kafka集群架构与高可用方案的优化策略合理配置参数在Kafka集群的配置中，参数的合理设置对于系统的高可用性和性能表现起着关键作用。例如，min.insync.replicas参数定义了ISR（In-SyncReplicas，同步副本）集合中的最少副本数，它直接关系到数据的持久性和一致性。当acks设置为all或-1时，生产者需要等待ISR中的所有副本都确认写操作后才认为成功，此时min.ins
大数据集成方案对比：Kafka vs Flume vs Sqoop AI天才研究院计算 AI大模型应用入门实战与进阶 Agentic AI 实战大数据 kafka flume ai
大数据集成方案对比：KafkavsFlumevsSqoop关键词：大数据集成、Kafka、Flume、Sqoop、流处理、批量迁移、日志收集摘要：在大数据生态中，数据集成是连接数据源与数据处理平台的关键环节。本文深度对比Kafka、Flume、Sqoop三大主流集成工具，从核心架构、技术原理、适用场景到实战案例展开系统性分析。通过数学模型量化性能差异，结合实际项目经验总结选型策略，帮助开发者根据业
【Hadoop】onekey_install脚本菜萝卜子 Linux hadoop 大数据分布式
hosts[root@kafka01hadoop-script]#cat/etc/hosts127.0.0.1localhostlocalhost.localdomainlocalhost4localhost4.localdomain4::1localhostlocalhost.localdomainlocalhost6localhost6.localdomain6192.168.100.150k
flink sql读hive catalog数据，将string类型的时间戳数据排序后写入kafka，如何保障写入kafka的数据是有序的 fzip Flink flink sql hive
在FlinkSQL中，要确保从Hive读取的STRING类型时间戳数据排序后有序写入Kafka，需要结合批处理模式、时间类型转换、单分区写入和Kafka生产者配置。以下是完整解决方案：一、核心解决方案1.批处理模式+全局排序将作业设置为批处理模式，并对字符串时间戳进行类型转换后排序：--设置为批处理模式（关键！）SET'execution.runtime-mode'='batch';--从Hive
Kafka面试问题1 小小少年Boy
1请说明什么是ApacheKafka?Kafka是分布式发布-订阅消息系统。Kafka是一个分布式的，可划分的，冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。它可以同时用于在线消息数据处理，和离线的数据文件处理。2、请说明什么是传统的消息传递方法?传统的消息传递方法包括两种：排队：在队列中，一组用户可以从服务器中读取消息，每条消息都发送给其中一个人。发布-订阅：在这个模型中，消息被广播
分布式定时器：原理设计与技术挑战你一身傲骨怎能输架构设计分布式
文章摘要分布式定时器用于在分布式系统中可靠、准确地触发定时任务，常见实现方案包括：基于数据库/消息队列的定时扫描、分布式任务调度框架（如Quartz集群、xxl-job）、时间轮/延迟队列（如Redis/Kafka）以及Zookeeper/Etcd协调服务。主要技术挑战包括时钟同步、任务幂等、高可用、负载均衡和故障恢复等。核心难点在于保证任务唯一性、调度精度与分布式一致性，技术选型需权衡轻量级（R
Filebeat + Logstash + ES进行Nginx日志采集一个只会喊666的菜比
简易架构图service.png架构图比较简单，日志收集大同小异，这次不添加任何中间服务比如：rediskafka后端只是存储进ES使用的版本jdk-8u161-linux-x64.rpmelasticsearch-6.7.2.rpmlogstash-6.7.2.rpmfilebeat-6.7.2-x86_64.rpm安装比较简单，只用进行rpm-ivh即可，接下来直接贴配置文件：Elastics
伽卡他卡电子教室：技术原理、功能解析与教育场景实践
一、术语澄清与技术定位“伽卡他卡”（Gakataka）在计算机科学领域的核心实体为伽卡他卡电子教室软件。需注意其与无关技术的区别：❌与分布式流处理平台ApacheKafka无技术关联；❌与AI模型GauGAN、半导体技术GAA等“G”开头术语无关。核心定位：一款专为教育场景设计的局域网教学管理软件，由伽卡他卡公司开发。二、核心功能与应用场景1.核心模块屏幕广播：实时传输教师端操作画面；远程控制：教
kafka的基本使用柔弱的富po kafka kafka zookeeper 分布式
kafka3.0的基本使用一、kafka基本使用1.启动kafka服务zookeeper+kafka的使用进入kafka/bin目录下./kafka-server-start.sh-daemon../config/server.properties验证是否启动成功：进入到zk中的节点看id是0的broker有没有存在（上线）ls/brokers/idsserver.properties核心配置详解
Kafka入门使用教程
1.前言1.1.什么是消息队列消息队列（MQ）是消息传递中间件解决方案的一个组件，旨在支持独立的应用和服务之间的信息交换。消息队列按发送顺序存储“消息”（由应用所创建、供其他应用使用的数据包），直到使用方应用能够处理它们为止。这些消息安全地等待接收方应用做好准备，因此，即使网络或接收方应用出现问题，消息队列中的消息也不会丢失。1.2.为什么用消息队列1.2.1.解耦生产者（客户端）发送消息到MQ中
Paimon对比基于消息队列（如Kafka）的传统实时数仓方案的优势 lifallen Paimon 大数据数据库数据结构 java 分布式 apache 数据仓库
弊端：数据重复->优势：Paimon主键表原生去重原方案弊端(Kafka)问题:消息队列（Kafka）是仅支持追加（Append-Only）的日志流。当Flink作业发生故障恢复（Failover）或业务逻辑迭代重跑数据时，同样的数据会被再次写入消息队列，形成重复数据。影响:下游应用（如DWS层、ADS层或直接对接的BI报表）必须自己实现复杂的去重逻辑，这不仅消耗大量计算资源（“资源消耗至少增加一
Java大厂面试实录：从电商场景到AIGC的深度技术拷问 remCoding Java场景面试宝典 Java面试 Spring Boot Kafka AI 大厂面试微服务
第一轮提问：电商场景与微服务基础面试官：小曾，请描述一个典型的电商秒杀场景，你会如何设计系统架构？涉及哪些关键技术？小曾：秒杀嘛，主要是高并发，我一般会用SpringBoot搭后端，数据库用Redis做缓存，消息队列用Kafka异步处理订单。具体技术细节……呃，好像没细想。面试官（微笑）：“不错，Redis和Kafka选得对。那如果用户请求量超10万/QPS，你会如何扩容？SpringCloud的
Java大厂面试实录：从Spring Boot到AI微服务架构的深度拷问 remCoding Java场景面试宝典 Java面试 Spring Boot Jakarta EE AI微服务 Kafka Spring Cloud AI面试
第一轮提问：电商场景下的高并发架构面试官：小曾，我们公司电商业务面临“双十一”秒杀场景，需要支持百万级并发，你会如何设计系统架构？请结合SpringCloud和消息队列谈谈方案。小曾：（搓手）额……我会用SpringCloudAlibaba，搞个Nacos做服务注册，网关用Zuul，然后订单服务用SpringBoot+Redis缓存，秒杀请求走消息队列，比如Kafka吧，异步处理，降低峰值压力……
Java大厂面试实录：从Spring Boot到AI微服务架构的层层递进 remCoding Java场景面试宝典 Java Spring Boot Spring Cloud AI Kafka Redis Microservices
场景：互联网大厂Java后端面试面试官（严肃）：请简单介绍下你参与过的项目，主要使用哪些技术栈？小曾（自信）：我参与过电商平台的订单系统，用了SpringBoot+SpringCloudAlibaba，数据库是MySQL+Redis缓存，消息队列用Kafka处理异步任务。面试官（点头）：不错，能具体说说订单系统如何应对高并发场景的吗？小曾：我们用了HikariCP优化数据库连接池，Redis集群做
Java大厂面试实录：从Spring Boot到AI微服务架构的深度技术挑战 remCoding Java场景面试宝典 Java Spring Boot Spring Cloud AI Kafka Redis Docker
场景：互联网大厂Java后端开发面试面试官（严肃）：小曾，请简单介绍下你过往的项目经验，特别是你在微服务架构中解决过哪些技术难题？小曾（自信）：我之前参与过电商平台的订单系统重构，将单体应用拆分为SpringCloud微服务架构。我们使用了SpringCloudGateway做网关路由，服务间通过Kafka异步通信，并引入Redis缓存热点数据。面试官：很好，能具体说说你们如何解决订单超卖问题的吗
分布式系统中优化ELK日志采集性能 Alex艾力的IT数字空间 elk 微服务中间件架构 ux 安全性测试可用性测试
架构设计、组件调优、资源分配等多维度入手一、架构优化：分布式与解耦设计分层采集与缓冲Filebeat轻量级采集：在每台服务器部署Filebeat替代Logstash作为日志收集器，降低资源占用（CPU/内存减少70%以上）。引入缓冲队列：通过Redis或Kafka作为日志缓冲池，缓解Logstash或Elasticsearch的突发流量压力，避免数据丢失（如Logstash异常时Redis暂存数据
kafka--基础知识点--0 Chasing__Dreams kafka kafka 分布式
kafka架构https://cloud.tencent.com/developer/article/230789219张图生产者架构消息的磁盘存储文件结构https://cloud.tencent.com/developer/article/230789219张图produce消息分区策略kafka–基础知识点–5–生产者分区策略ISR、OSR、AR是什么？ISR：ISR，全称in-syncre
Kafka 时间轮深度解析：如何O(1)处理定时任务 lifallen Kafka Java kafka linq 分布式 java 数据库数据结构 apache
TimingWheel（时间轮）TimingWheel是一种高效的、用于实现大量定时任务调度的算法结构。相比于传统的基于优先队列（PriorityQueue）的定时器（其添加/删除操作的时间复杂度为O(logn)），时间轮可以实现近乎O(1)的添加和删除操作，这在需要管理成千上万个定时任务的场景下（例如Kafka中的请求超时、延迟操作等）具有巨大的性能优势。可以把一个TimingWheel想象成一
Kafka深度解析：架构、原理与应用实践 JouJz kafka 架构 linq
Kafka深度解析：架构、原理与应用实践引言在现代分布式系统架构中，消息队列作为系统解耦、异步通信的核心组件发挥着至关重要的作用。而在众多消息队列解决方案中，ApacheKafka凭借其卓越的性能、高吞吐量和可靠性，已成为企业级数据管道的首选技术。本文将深入剖析Kafka的核心架构、工作原理以及实践应用，帮助开发者全面掌握这一强大的分布式消息系统。一、Kafka概述与核心概念1.1Kafka的诞生
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
Kafka系列之：Dead Letter Queue死信队列DLQ 快乐骑行^_^ Kafka Kafka系列 Dead Letter Queue 死信队列 DLQ
Kafka系列之：DeadLetterQueue死信队列DLQ一、死信队列二、参数errors.tolerance三、创建死信队列主题四、在启用安全性的情况下使用死信队列更多内容请阅读博主这篇博客：Kafka系列之：KafkaConnect深入探讨-错误处理和死信队列一、死信队列死信队列（DLQ）仅适用于接收器连接器。当一条记录以JSON格式到达接收器连接器时，但接收器连接器配置期望另一种格式，如
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1