吃豆子的恐龙

Kafka—工作流程、如何保证消息可靠性

什么是kafka？

分布式事件流平台。希望不仅仅是存储数据，还能够数据存储、数据分析、数据集成等功能。消息队列（把数据从一方发给另一方），消息生产好了但是消费方不一定准备好了（读写不一致），就需要一个中间商来存储信息，kafka就是中间商

架构图如下：

名词解释

名称	解释
Broker	消息中间件处理节点，一个Kafka节点就是一个broker，一个或者多个Broker可以组成一个Kafka集群
Topic	Kafka根据topic对消息进行归类，发布到Kafka集群的每条消息都需要指定一个topic
Producer	消息生产者，向Broker发送消息的客户端
Consumer	消息消费者，从Broker读取消息的客户端
ConsumerGroup	每个Consumer属于一个特定的Consumer Group，一条消息可以被多个不同的Consumer Group消费，但是一个Consumer Group中只能有一个Consumer能够消费该消息
Partition	物理上的概念，一个topic可以分为多个partition，每个partition内部消息是有序的
offset	partition中每条消息的唯一编号

①、Producer（生产者）

消息生产者，向broker发送消息，也称为发布者

②、comsumer（消费者）

读取消息的客户端

③、consumer group（消费者组）

一个consumer group由多个consumer组成，消费者组可以消费某个分区中的所有消息，消费的消息不会立马被删除。也称为订阅者

④、Topic（主题）

逻辑上的区分，通过topic将消息进行分类，不同topic会被订阅该topic的消费者消费

特点：topic的一个分区只能被consumer group的一个consumer消费；同一条消息可以被多个消费者组消费，但同一个分区只能被某个消费者组中的一个消费者消费。

问题：topic消息非常多，消息会被保存在log日志文件中，文件过大

解决：分区

⑥、partition（分区）

将一个topic中的消息分区来存储，有序序列，真正存放消息的消息队列

⑦、offset（偏移量）

分区中的每条消息都有唯一的编号，用来唯一标识这一条消息（message）

⑧、Leader、Follower（副本）

每个分区都可以设置自己对应的副本（replication-factor参数），有一个主副本（leader）、多个从副本（follower）

每个副本的职责是什么？

leader：处理读写请求，负责当前分区的数据读写
follower：同步数据，保持数据一致性

为什么要设置多副本？

单一职责。leader负责和生产消费者交互，follower负责副本拷贝，副本是为了保证消息存储安全性，当其中一个leader挂掉，则会从follower中选举出新的leader，提高了容灾能力，但是副本也会占用存储空间

⑨、ISR（副本集）

动态集合，保存正在同步的副本集，是与leader同步的副本。如果某个副本不能正常同步数据或落后的数据比较多，会从副本集中把节点中剔除，当追赶上来了在重新加入。kafka默认的follower副本能够落后leader副本的最长时间间隔是10S

参数设置：replica.lag.time.max.ms

kafka工作流程？

生产者生产好消息之后调用send()方法发送到broker端，broker将收到的消息存储的对应topic中的patition中，而broker中的消息实际上是存储在了commit-log文件中，消费者监听定时循环拉取消息

一、生产者发送消息流程

参考代码：

package com.example;

import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.apache.kafka.clients.producer.RecordMetadata;
import java.util.Properties;
import java.util.concurrent.ExecutionException;
import java.util.concurrent.Future;


public class MyProductor {
    public static void main(String[] args) throws ExecutionException, InterruptedException {
        //kafka的配置
        Properties properties = new Properties();

        //kafka服务器地址和端口
        properties.put("bootstrap.servers", "localhost:9092");

        //Producer的压缩算法使用的是GZIP
        //为什么要压缩？
        properties.put("compression.type","gzip");

        //指定发送消息的key和value的序列化类型
        properties.put("key.serializer", "org.apache.kafka.common,serialization.StringSerializer");
        properties.put("value.serializer", "org.apache.kafka.common,serialization.StringSerializer");
        //补充：为什么要序列化/反序列化？

        //实例化一个生产者对象，指定发送的主题、key、value、分区号等
        KafkaProducer producer = new KafkaProducer<>(properties);

        //发送100条消息
        for (int i = 0; i < 100; i++) {
            //调用send方法，向kafka发送数据，并返回一个Future对象，通过该对象来获取结果
            Future result = producer.send(new ProducerRecord<>("my-topic", Integer.toString(i),
                    Integer.toString(i)));
            RecordMetadata recordMetadata = result.get();
        }

        //关闭生产者对象
        producer.close();
    }
}

第一步、生产者配置参数

指定生产消息要达到的kafka服务器地址，压缩方式、序列化方式

①、为什么要进行压缩？

Producer生产的每个消息都经过GZIP压缩，在传输的过程中能够节省网络传输带宽和Broker磁盘占用

②、为什么要进行序列化/反序列化？

数据在网络传输过程中都是以字节流的形式传输的，在生产者发送消息的时候需要将消息先进行序列化

第二步、拦截器

生产者在发送消息前会对请求的消息进行拦截，起到过滤和处理的作用。

我们可以自定义拦截器，拦截器中定义自己需要的逻辑，满足个性化配置。比方说对消息进行加密解密、消息格式转换、消息路由等等

第三步、序列化器

数据在网络传输过程中都是以字节流的形式传输的，在生产者发送消息的时候需要将消息先进行序列化

第四步、分区器

如果ProducerRecord对象提供了分区号，使用提供的分区号
如果没有提供分区号，提供了key，则使用key序列化后的值的hash值对分区数量取模
如果没有提供分区号、key，采用轮询方式分配分区号（默认）

第五步、send()发送消息

通过上面的操作生产者已经知道该往哪个主题、哪个分区发送这条消息了。

第六步、获取发送消息响应

①、如果消息发送成功：broker收到消息之后会返回一个Future类型RecordMetadata对象，可以通过该对象来获取发送的结果，对象中记录了此条消息发送到的topic、partition、offset。

②、消息发送失败：错误消息。在收到错误消息之后会有尝试机制，尝试重新发送消息

但直接使用send(msg）会出现问题，调用之后会立即返回，如果因为网络等外界因素影响导致消息没有发送到broker，出现生产者程序丢失数据问题，只能通过处理返回的Future对象处理才能感知到。

对应的解决方案是我们可以使用send(msg，callbakc)的方式发哦是那个消息并设置回调函数

在发送消息后，会立即调用回调函数来处理发送结果，回调函数中定义了处理逻辑

二、broker收发消息流程

1. 分区机制（主题-分区-消息）

前文中提到生产者发送到broker的消息都是基于topic进行分类的（逻辑上），而topic中的消息是以partition为单位存储的（物理上），每条消息都有自己的offset

①、分区中的数据存储在哪儿？

每个partition都有一个commit log文件

②、为什么要分区（好处）存储？

如果commitlog文件很大的话可能导致一台服务器无法承担所有的数据量，机器无法存储，分区之后可以把不同的分区放在不同的机器上，相当于是分布式存储

每个消费者并行消费
提高可用性，增加若干副本

2. 消息存储

每一个partition都对应了一个commit log文件，日志文件中存储了消息等信息，新到达的消息以追加的方式写入分区的末尾，然后以先入先出的顺序读取。

①、分区中的消息会一直存储吗？

如果不停的一致向日志文件中写入消息，日志文件大小也是有上限的，所以kafka会定期的清理磁盘，有两种方式：

时间：kafka默认保留最近一周的消息（根据配置文中的日志保留时间设置的：log.retention.hours）
大小：kakfa在配置文件中配置单个消息的大小为1MB，如果生产者发送的消息超过1MB，不会接收消息

②、follower副本数据什么时候同步更新的？

数据传输阶段：Leader副本将消息发送给Follower副本。这个过程中，Leader副本会将消息按照一定的批次大小发送给Follower副本，Follower副本会接收并写入本地日志。一旦Follower副本成功写入消息到本地日志，就会向Leader副本发送确认消息。
确认阶段：Leader副本在收到来自所有Follower副本的确认消息后，就会认为消息已经成功复制到所有的副本中。然后向生产者发送成功响应，表示消息已被成功接收和复制。

注意的是，Follower副本的数据同步是异步进行的，即Follower副本不需要等待数据同步完成才返回成功响应。这样可以提高消息的处理速度和吞吐量。但也意味着，在数据同步过程中，Follower副本可能会滞后于Leader副本一段时间，这个时间间隔称为追赶（lag）。Kafka提供了配置参数来控制同步和追赶的速度，以平衡数据的一致性和性能的需求。

三、消费者消费消息流程

配置消费者客户端参数
创建消费者实例并指定订阅的主题
拉取消息并消费
提交消费offset

参考代码：

package com.example;

import org.apache.kafka.clients.consumer.*;
import org.apache.kafka.common.TopicPartition;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.Map;
import java.util.Properties;


public class Consumer {
    public static void main(String[] args) {
        Properties properties = new Properties();
        //要连接的kafka服务器
        properties.put("bootstrap.servers", "localhost:9092");
        //标识当前消费者所属的小组
        properties.put("group.id", "test");

        //---------位移提交（自动提交）----------
        //为true，自动定期地向服务器提交偏移量(offset)
        properties.put("enable.auto.commit", "true");
        //自动提交offset的间隔，默认是5000ms(5s)
        properties.put("auto.commit.interval.ms", "1000");
        //每隔固定实践消费者就会把poll获取到的最大偏移量进行自动提交
        //出现的问题：如果刚提交了offset，还没到5s，2s的时候就发生了均衡，导致分区会重新划分，此时offset是不准确的


        //key和value反序列化
        properties.put("key.serializer", "org.apache.kafka.common,serialization.StringSerializer");
        properties.put("value.serializer", "org.apache.kafka.common,serialization.StringSerializer");

        KafkaConsumer consumer = new KafkaConsumer<>(properties);
        //指定consumer消费的主题(订阅多个)
        consumer.subscribe(Arrays.asList("my-topic", "bar"));

        //轮询向服务器定时请求数据
        while (true) {
            //拉取数据
            ConsumerRecords records = consumer.poll(100);
            for (ConsumerRecord record : records) {
                //同步提交：提交当前轮询的最大offset
                consumer.commitSync();
                //如果失败还会进行重试
                //优点：提交成功准确率上升；缺点：降低程序吞吐量

                System.out.printf("offset=%d,key=%s,value=%s%n", record.offset(), record.key(), record.value());

                //异步提交并定义回调
                //优点：提高程序吞吐量（不需要等待请求响应，程序可以继续往下执行）
                //缺点：当提交失败的时候不会自动重试；
                consumer.commitAsync(new OffsetCommitCallback() {
                    @Override
                    public void onComplete(Map offsets,
                                           Exception exception) {
                        if (exception != null) {
                            System.out.println("错误处理");
                            offsets.forEach((x, y) -> System.out.printf(
                                    "topic = %s,partition = %d, offset = %s \n", x.topic(), x.partition(), y.offset()));
                        }
                    }
                });
            }
        }
    }
}

第一步、配置消费者客户端参数

配置要消费消息的kafka服务器、消费者所在的消费组、offset是自动提交还是手动提交

enable.auto.commit和auto.commit.interval.ms参数为是否自动提交参数

enable.auto.commit=true：自动定期地向服务器提交偏移量(offset)

auto.commit.interval.ms：动提交offset的间隔，默认是5000ms(5s)

逻辑：每隔固定实践消费者就会把poll获取到的最大偏移量进行自动提交

出现的问题：如果刚提交了offset，还没到5s，2s的时候就发生了均衡，导致分区会重新划分，此时offset是不准确的，所以我们也可以配置手动提交的方式，具体的手动提交方式在下面第四步会讲到

第二步、创建消费者实例并指定订阅的主题

调用subscribe（）方法可以订阅多个主题

第三步、拉取消息并消费

通过poll（）方法设置定时拉取消息的时间间隔，消费者会循环的从kafka服务器拉取消息

第四步、提交消费offset

前文中提到我们可以通过收到的方式提交offset，而手动提交又分为了两种，同步提交和异步提交。下面我直接上代码观看更直观

①、同步提交：如果失败还会进行重试，保证了提交成功准确率上升，但缺点是降低程序吞吐量，会发生阻塞

consumer.commitSync();

②、异步提交并回调：提高程序吞吐量（不需要等待请求响应，程序可以继续往下执行），不会阻塞，但缺点是当提交失败的时候不会自动重试；

consumer.commitAsync(new OffsetCommitCallback() {
    @Override
    public void onComplete(Map offsets,Exception exception) {
        if (exception != null) {
            System.out.println("错误处理");
            offsets.forEach((x, y) -> System.out.printf(
            	"topic = %s,partition = %d, offset = %s \n", x.topic(), x.partition(), y.offset()));
            }
        }
});

Kafka如何保证消息可靠性的？

如何保证消息不丢失？ack机制

topic中的partition收到生产者发送的消息后，broker会向生产者发送一个ack确认，如果收到则继续发送，没收到则重新发送。

acks=0：不等待broker返回ack接着执行下面逻辑。如果broker还没接收到消息就返回，此时broker宕机那么数据会丢失
acks=1（默认）：消息被leader副本接收到之后才算被成功发送。如果follower同步成功之前leader发生了故障，那么数据会丢失
acks=all：所有ISR列表的副本全部收到消息后，生产者收到broker的响应才算成功。

发生重复消费的场景有哪些？

消费者提交位移失败：当消费者消费消息后，如果在提交消费位移之前发生错误或故障，可能导致消费者无法正确提交位移。在恢复后，消费者重新启动时，可能会从之前已经消费过的位置开始消费消息，导致消息的重复消费。
消费者重复启动：如果消费者在处理消息过程中发生故障或重启，可能会导致消费者重新从上一次位移处开始消费消息。这样可能会导致之前已经消费过的消息被重复消费。
重平衡（Rebalance）：当消费者组中的消费者发生变化（例如增加或减少消费者），或者消费者订阅的主题发生变化时，会触发消费者组的重平衡操作。在重平衡期间，消费者可能会被重新分配到其他分区，导致消息的重新消费。
消息重复发送：在某些情况下，生产者可能会由于网络问题或其他原因导致消息发送失败，然后重新发送相同的消息。这样可能会导致消息在Kafka中出现多次，导致重复消费。

如何保证消息不被重复消费的？

使用消费者组（Consumer Group）：将消费者组中的消费者分配到不同的分区进行消费，确保每个分区只被一个消费者消费。这样可以避免重复消费问题。
使用自动提交位移：在消费者消费消息时，可以选择使用自动提交位移的方式。这样消费者会在消费消息后自动提交位移，确保消费者在重启或发生故障后能够从正确的位置继续消费。
使用唯一的消费者ID：为每个消费者分配一个唯一的消费者ID，这样可以避免消费者重复启动或重复加入消费者组的情况。
设计幂等的消费逻辑：在消费者的业务逻辑中，可以设计幂等的处理逻辑，确保相同的消息被消费多次时不会产生副作用。

如何保证消息顺序消费的？

分区顺序：Kafka中的主题（topic）被分为多个分区（partition），每个分区内的消息是有序的。当消息被写入到某个分区时，Kafka会保证该分区内的消息顺序。因此，如果一个主题只有一个分区，那么消费者将按照消息的写入顺序进行消费。
消费者组：在一个消费者组（Consumer Group）中，每个消费者只会消费其中一个分区的消息。这样可以保证每个分区内的消息被单个消费者按照顺序消费。如果一个主题有多个分区，并且消费者组中的消费者数大于分区数，Kafka会将多个消费者均匀地分配到不同的分区进行消费。
顺序保证：在同一个分区内，Kafka会保证消息的顺序。即使有多个消费者消费同一个分区，Kafka也会保证每个消费者按照顺序消费该分区的消息。

需要注意的是，Kafka只能保证在单个分区内的消息顺序。如果一个主题有多个分区，那么多个分区之间的消息顺序无法保证。消费者可能会并行消费多个分区，并且不同分区的消息到达消费者的顺序可能会不同。

大数据生态的Apache RocketMQ5.0 Apache RocketMQ java 开发语言
本文作者：李伟-ApacheRocketMQCommitter，RocketMQPython客户端项目Owner，ApacheDorisContributor，腾讯云消息队列资深开发工程师，著有《RocketMQ分布式消息中间件(核心原理与最佳实践)》。一、RocketMqueue101RocketMQ拥有诸多出色的特性：比如多副本机制，RocketMQ支持存储层的多副本Dledger，它是基于R
第三章：实时流数据处理与分析深度学习客大数据技术进阶 linq c#数据分析
目录3.1流处理框架深入解析与实战Flink与KafkaStreams的性能对比：事件驱动架构的代码实现1.ApacheFlink：流处理的“性能怪兽”2.KafkaStreams：轻量级、低延迟的流式处理框架实时异常检测与报警系统：结合FlinkCEP（ComplexEventProcessing）进行实现3.2低延迟流处理优化数据流式计算中的状态管理与容错机制：FlinkCheckpointi
RocketMQ 系列文章点滴~ rocketmq
目录使用RocketMQ的业务系统怎么处理消息的重试？使用RocketMQ的业务系统怎么保证消息处理的幂等性？使用RocketMQ的业务系统怎么处理消息的积压？RocketMQ怎么保证消息的可靠性？RocketMQ怎么保证消息的顺序性的？RocketMQ的Topic和消息队列MessageQueue信息，是怎么分布到Broker的？怎么负载均衡到Broker的？NameServer在RocketM
java集成kafka案例沉墨的夜 java kafka 开发语言
要在Java项目中集成ApacheKafka以实现消息的生产和消费，步骤如下：1.引入Maven依赖在您的pom.xml文件中添加以下依赖，以包含Kafka客户端库：org.apache.kafkakafka-clients2.8.0org.springframework.kafkaspring-kafka2.7.02.配置Kafka生产者首先，设置生产者的配置属性：importorg.apach
分布式微服务系统架构第88集：kafka集群掘金-我是哪吒分布式微服务系统架构 kafka 架构
使用集群最大的好处是可以跨服务器进行负载均衡，再则就是可以使用复制功能来避免因单点故障造成的数据丢失。在维护Kafka或底层系统时，使用集群可以确保为客户端提供高可用性。需要多少个broker一个Kafka集群需要多少个broker取决于以下几个因素。首先，需要多少磁盘空间来保留数据，以及单个broker有多少空间可用。如果整个集群需要保留10TB的数据，每个broker可以存储2TB，那么至少需
大数据开发的底层逻辑是什么？瑰茵大数据
大数据开发的底层逻辑主要围绕数据的生命周期进行，包括数据的采集、存储、处理、分析和可视化等环节。以下是大数据开发的一些关键底层逻辑：数据采集：目的：从不同的数据源（如日志文件、数据库、传感器等）收集数据。方法：使用数据采集工具（如ApacheFlume、ApacheKafka、ApacheSqoop）来捕获和传输数据。数据存储：目的：将收集到的数据存储在可靠且可扩展的存储系统中。方法：使用分布式文
【MQ】如何保证消息队列的高性能？ Forest 森林消息队列 MQ kafka
零拷贝Kafka使用到了mmap和sendfile的方式来实现零拷贝。分别对应Java的MappedByteBuffer和FileChannel.transferTo顺序写磁盘Kafka采用顺序写文件的方式来提高磁盘写入性能。顺序写文件，基本减少了磁盘寻道和旋转的次数完成一次磁盘IO，需要经过寻道、旋转和数据传输三个步骤，如果在写磁盘的时候省去寻道、旋转可以极大地提高磁盘读写的性能。Kafka中每
【MQ】如何保证消息队列的高可用？ Forest 森林消息队列 MQ kafka
RocketMQNameServer集群部署Broker做了集群部署主从模式类型：同步复制、异步复制主节点返回消息给客户端的时候是否需要同步从节点Dledger：要求至少消息复制到半数以上的节点之后，才给客户端返回写入成功slave定时从master同步数据（同步刷盘、异步刷盘），master一旦挂了，slave提供消费服务，不能写入消息KafkaKafka从0.8版本开始提供了高可用机制，可保障
rabbitmq和redis用作消息队列的区别 rlk512974883 JAVA基础
将redis发布订阅模式用做消息队列和rabbitmq的区别：可靠性redis：没有相应的机制保证消息的可靠消费，如果发布者发布一条消息，而没有对应的订阅者的话，这条消息将丢失，不会存在内存中；rabbitmq：具有消息消费确认机制，如果发布一条消息，还没有消费者消费该队列，那么这条消息将一直存放在队列中，直到有消费者消费了该条消息，以此可以保证消息的可靠消费；实时性redis:实时性高，redi
【面试题】构建高并发、高可用服务架构：技术选型与设计言之。 redis python 面试架构
监控系统消息队列缓存层数据存储层应用层Web层负载均衡与流量分配GrafanaPrometheusAlertmanager消息队列Kafka/RabbitMQ集群/镜像队列缓存层Redis/Memcached数据库MySQL/PostgreSQL主从复制/主主复制应用服务器SpringBoot/Node.js应用服务器SpringBoot/Node.js应用服务器SpringBoot/Node.j
ActiveMQ与RabbitMQ的区别 BE东欲 java-rabbitmq rabbitmq java-activemq activemq java
ActiveMQ和RabbitMQ都是流行的消息队列中间件，它们之间有以下几点区别：编写语言：ActiveMQ是用Java编写的，而RabbitMQ则是用Erlang编写的。协议支持：ActiveMQ支持OpenWire、Stomp、AMQP、MQTT等多种协议，而RabbitMQ主要支持AMQP协议。性能：RabbitMQ在处理大量消息时的性能表现比ActiveMQ更好。持久化：ActiveMQ
WebSocket实现分布式的不同方案对比 codeBrute websocket 分布式网络协议
引言随着实时通信需求的日益增长，WebSocket作为一种基于TCP的全双工通信协议，在实时聊天、在线游戏、数据推送等场景中得到了广泛应用。然而，在分布式环境下，如何实现WebSocket的连接管理和消息推送成为了一个挑战。本文将对比几种常见的WebSocket分布式实现方案，包括基于消息队列的广播模式、基于Redis缓存的路由模式、以及基于哈希环的实现方案，探讨它们的优缺点及适用场景。方案一：基
NET处理分布式事务的解决方案--CAP dotNET跨平台分布式
什么是CAPCAP是一个基于.net标准的库，是处理分布式事务的解决方案，还具有EventBus的功能，它轻量级、好用、高效。CAP（DistributedTransactionFramework）是一个开源的.NET库，用于处理分布式事务。它提供了一种简单而有效的方式来处理微服务架构中的事务问题，特别是在需要保证数据一致性的场景中。CAP通过集成事件驱动架构和消息队列来实现分布式事务。主要特点1
kafka开启kerberos 蘑菇丁 debian 运维
一、基本环境准备创建票据创建Kerberos主体（Principal）：使用kadmin.local或kadmin命令为Zookeeper和Kafka服务创建Kerberos主体。例如：注意有几台机器创建几个kadmin.local-q"addprinc-randkeyzookeeper/[email protected]"kadmin.local-q"addprinc-rand
一文吃透Redis 4 种模式在 Spring Boot 下的配置一叶飘零_sweeeet redis java redis spring boot
一、引言在当今的Java开发领域，SpringBoot以其快速开发和便捷配置的特性成为众多项目的首选框架，而Redis作为高性能的内存数据库，在缓存、分布式锁、消息队列等诸多场景中都发挥着举足轻重的作用。了解Redis在SpringBoot下不同模式的配置，对于提升系统性能、实现复杂业务逻辑至关重要。作为一名有着阿里P8级别经验的Java技术专家，今天我将带你深入探索Redis4种模式在Sprin
揭秘 Redis 大 key 和热 key 问题，一文教你彻底解决一叶飘零_sweeeet redis 分布式 redis 后端
一、引言在当今的互联网应用开发中，Redis作为一款高性能的内存数据库，被广泛应用于缓存、消息队列、分布式锁等各种场景。然而，随着业务的不断发展和数据量的增长，Redis中出现的大key和热key问题逐渐成为影响系统性能和稳定性的重要因素。作为一名在阿里有着P8级别的Java技术专家，今天我将深入剖析Redis大key和热key问题，并为你提供全面且详细的解决方案。无论是初涉Redis的开发者，还
springboot kafka配置与使用摘星喵Pro java web 编程技巧 kafka spring boot java
springbootkafka配置与使用引入spring-kafka依赖org.springframework.kafkaspring-kafkaapplication配置可以根据情况只配置生产着或消费者spring:kafka:#以逗号分隔的地址列表，用于建立与Kafka集群的初始连接(kafka默认的端口号为9092)bootstrap-servers:ip:port,ip:port,ip:p
MQ的可靠消息投递机制言之。面试架构面试
确保消息在发送、传递和消费过程中不会丢失、重复消费或错乱。1.消息的可靠投递消息持久化：消息被发送到队列后会存储在磁盘上，即使消息队列崩溃，消息也不会丢失。例如：Kafka、RabbitMQ等都支持持久化消息。Kafka通过将消息存储在日志文件中，而RabbitMQ通过磁盘队列持久化消息。消息确认机制（ACK）：消息生产者发送消息后，消费者需要返回确认（ACK）表示已成功处理，若在超时时间内未确认
大表性能优化：从问题到解决方案繁川 Java面试精选性能优化
大表性能优化：从问题到解决方案目录为什么大表会慢？1.1磁盘IO瓶颈1.2索引失效或没有索引1.3分页性能下降1.4锁争用性能优化的总体思路表结构设计优化3.1精简字段类型3.2表拆分：垂直拆分与水平拆分索引优化4.1创建合适的索引4.2避免索引失效SQL优化5.1减少查询字段5.2分页优化分库分表6.1水平分库分表缓存与异步化7.1使用Redis缓存热点数据7.2使用消息队列异步处理写操作实战案
kafka-保姆级配置说明(consumer) xiao-xiang kafka kafka 分布式
bootstrap.servers=#deserializer应该与producer保持对应#key.deserializer=#value.deserializer=##fetch请求返回时，至少获取的字节数，默认值为1##当数据量不足时，客户端请求将会阻塞##此值越大，客户端请求阻塞的时间越长，这取决于producer生产效率和网络传输能力fetch.min.bytes=1##如果broker
kafka-部署安装 xiao-xiang kafka kafka 分布式
一.简述：Kafka是一个分布式流处理平台，常用于构建实时数据管道和流应用。二.安装部署：1.依赖：a).Java：Kafka需要Java8或更高版本。b).zookeeper：#tarfxvzzookeeper-3.7.0.tar.gz#mvzookeeper-3.7.0zookeeper&&cdzookeeper#mkdirdatalog编辑conf/zoo.cfg文件，设置dataDir和其
简述kafka生产者ack确认机制技匠三石弟弟数据开发 kafka
一、总结该章节主要探讨造成数据丢失问题生产者ack确认机制(目的是要有多少个分区副本收到消息，生产者才认为该消息写入成功；acks参数对数据是否丢失起重要的作用)（1）ack=0，就是表示生产者不会和broker确认消息是否写入成功。这就有可能造成服务器broker因出现问题，导致没有接收到生产者的消息，而生产者却无从得知。这也就造成数据的丢失。--较低延迟和高吞吐量，但是以消息丢失的高风险为代价
Kafka 生产者中的ack的配置欧阳冰轩 Kafka kafka 分布式
在同步发送的前提下，⽣产者在获得集群返回的ack之前会⼀直阻塞。那么集群什么时候返回ack呢？此时ack有3个配置：1.ack=0kafka-cluster不需要任何的broker收到消息，就⽴即返回ack给⽣产者，最容易丢消息的，效率是最⾼的2.ack=1（默认）：多副本之间的leader已经收到消息，并把消息写⼊到本地的log中，才会返回ack给⽣产者，性能和安全性是最均衡的3.ack=-1/
kafka 生产者发送流程 jxj_cd mysql 数据库
Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。kafka的基础架构：Kafka生产者发送流程详解:拦截器序列化器分区器生产者端由两个线程协调完成，分别是main线程和Sender线程。main线程在将消息通过拦截器、序列化器和分区器处理后缓存到消息累加器（Reco
【53】Camunda8-Zeebe核心引擎-Partitions分区与Internal processing内部处理 AlieNeny Camunda camunda8 流程引擎 zeebe partitions 分区
Partitions分区在Zeebe中，所有数据都是基于分区的。（一个）分区本质上是一个关于流程事件的持久化流。在broker集群中，分区分布在节点之间，因此可以将其视为分片。启动/初始化Zeebe集群时，用户可以配置所需的分区数。如果使用过Kafka，这部分内容是比较相似的。每当部署流程时，都会将其部署到第一个分区。然后，该流程将分发到所有分区。在所有分区上，此流程接收相同的key和版本，以便可
Kafka生产者ACK参数与同步复制 WannaRunning kafka 分布式
目录生产者的ACK参数ack等于0ack等于1（默认）ack等于-1或allKafka的同步复制使用误区生产者的ACK参数Kafka的ack机制可以保证生产者发送的消息被broker接收成功。Kafkaproducer有三种ack机制，分别是0，1，-1。这个配置可以在初始化producer时在config中进行配置。默认值是1。ack等于0producer不等待broker同步完成的确认，只要发
filebeat收集各种类型日志写入logstash，再从logstash中读取日志写入kafka中(有filebeat) 运维实战课程 kafka 分布式
filebeat收集各种类型日志写入logstash，再从logstash中读取日志写入kafka中(有filebeat)如果对运维课程感兴趣，可以在b站上、A站或csdn上搜索我的账号：运维实战课程，可以关注我，学习更多免费的运维实战技术视频0.环境机器规划：192.168.43.163kafka1192.168.43.164kafka2192.168.43.165kafka3192.168.4
【MQ】RabbitMq的可靠性保证 lose_rose777 面试题 java 中间件网络
消息队列中的可靠性主要是分为三部分：消息不丢失：确保消息从生产者发送到消费者消息不丢失消息不重复：确保消息不被重复消费消息顺序性：确保消费的顺序性解决方案主要有以下几部分：消息不丢失生产者确认机制持久化机制消费者确认机制高可用消息不重复：消费者确认机制消息重试机制幂等性设计消息顺序性单消费者模式消息编号生产者确认机制作用确保生产者发送的消息成功到达mq，避免消息在传输过程中丢失实现原理生产者会发送
.NET CORE消息队列RabbitMQ 精神小伙就是猛 .netcore rabbitmq 分布式
目录1.消息队列概述2.消息队列的特点及应用场景3.RabbitMQ3.1初始RabbitMQ3.2Docker安装RabbitMQ3.3RabbitMQ中的六大队列模式3.3.1简单队列模式3.3.2工作队列3.3.3发布订阅3.3.4路由模式3.3.5主题模式3.3.6RPC模式3.4RabbitMQ-消息确认模式3.4.1消息确认机制是什么？为什么需要消息确认？3.4.2生产者消息确认模式3
kafka日志策略神云瑟瑟 kafka kafka 日志删除配置
kafka日志清除策略kafkalog的清理策略有两种：delete,compact,默认是delete这个对应了kafka中每个topic对于record的管理模式delete：一般是使用按照时间保留的策略，当不活跃的segment的时间戳是大于设置的时间的时候，当前segment就会被删除compact:日志不会被删除，会被去重清理，这种模式要求每个record都必须有key，然后kafka会
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。

Kafka—工作流程、如何保证消息可靠性

什么是kafka？

名词解释

①、Producer（生产者）

②、comsumer（消费者）

③、consumer group（消费者组）

④、Topic（主题）

⑥、partition（分区）

⑦、offset（偏移量）

⑧、Leader、Follower（副本）

每个副本的职责是什么？

为什么要设置多副本？

⑨、ISR（副本集）

kafka工作流程？

一、生产者发送消息流程

参考代码：

第一步、生产者配置参数

①、为什么要进行压缩？

②、为什么要进行序列化/反序列化？

第二步、拦截器

第三步、序列化器

第四步、分区器

第五步、send()发送消息

第六步、获取发送消息响应

二、broker收发消息流程

1. 分区机制（主题-分区-消息）

①、 分区中的数据存储在哪儿？

②、 为什么要分区（好处）存储？

2. 消息存储

①、 分区中的消息会一直存储吗？

②、follower副本数据什么时候同步更新的？

三、消费者消费消息流程

参考代码：

第一步、配置消费者客户端参数

第二步、创建消费者实例并指定订阅的主题

第三步、拉取消息并消费

第四步、提交消费offset

Kafka如何保证消息可靠性的？

如何保证消息不丢失？ack机制

发生重复消费的场景有哪些？

如何保证消息不被重复消费的？

如何保证消息顺序消费的？

你可能感兴趣的:(kafka,消息队列,生产者消费者)

①、分区中的数据存储在哪儿？

②、为什么要分区（好处）存储？

①、分区中的消息会一直存储吗？