大龄码农生活

Kafka学习---分区与副本原理解析

一、kafka集群

kafka集群是由broker组成的。Broker 是 Kafka 的服务节点，即 Kafka 的服务器。其架构图下图：

Producer：生产者，也就是发送消息的一方。生产者负责创建消息，然后将其发送到 Kafka。
Consumer：消费者，也就是接受消息的一方。消费者连接到 Kafka 上并接收消息，进而进行相应的业务逻辑处理。
Consumer Group：一个消费者组可以包含一个或多个消费者。使用多分区 + 多消费者方式可以极大提高数据下游的处理速度，同一消费组中的消费者不会重复消费消息，同样的，不同消费组中的消费者消息消息时互不影响。Kafka 就是通过消费组的方式来实现消息 P2P 模式和广播模式。
Broker：服务代理节点。Broker 是 Kafka 的服务节点，即 Kafka 的服务器。
Topic：Kafka 中的消息以 Topic 为单位进行划分，生产者将消息发送到特定的 Topic，而消费者负责订阅 Topic 的消息并进行消费。
Partition：Topic 是一个逻辑的概念，它可以细分为多个分区，每个分区只属于单个主题。同一个主题下不同分区包含的消息是不同的，分区在存储层面可以看作一个可追加的日志（Log）文件，消息在被追加到分区日志文件的时候都会分配一个特定的偏移量（offset）。
Offset：offset 是消息在分区中的唯一标识，Kafka 通过它来保证消息在分区内的顺序性，不过 offset 并不跨越分区，也就是说，Kafka 保证的是分区有序性而不是主题有序性。
Replication：副本，是 Kafka 保证数据高可用的方式，Kafka 同一 Partition 的数据可以在多 Broker 上存在多个副本，通常只有主副本对外提供读写服务，当主副本所在 broker 崩溃或发生网络一场，Kafka 会在 Controller 的管理下会重新选择新的 Leader 副本对外提供读写服务。
Record：实际写入 Kafka 中并可以被读取的消息记录。每个 record 包含了 key、value 和 timestamp。

1.1、Kakfa Broker Leader的选举

Broker集群受Zookeeper管理。所有的Kafka Broker节点一起去zookeeper上创建/controller临时节点，因为只有一个Kafka Broker会注册成功，其他的都会失败，所以这个成功在Zookeeper上注册临时节点的这个Kafka Broker会成为Kafka Broker Controller，其他的Kafka broker叫Kafka Broker follower。（这个过程叫Controller在ZooKeeper注册Watch）。这个Controller会监听其他的Kafka Broker的所有信息，如果这个kafka broker controller宕机了，在zookeeper上面的那个临时节点就会消失，此时所有的kafka broker又会一起去 Zookeeper上注册一个临时节点，因为只有一个Kafka Broker会注册成功，其他的都会失败，所以这个成功在Zookeeper上注册临时节点的这个Kafka Broker会成为Kafka Broker Controller，其他的Kafka broker叫Kafka Broker follower 。

二、topic 的分区与副本

2.1 分区

Kafka的每个topic都可以分为多个Partition，并且多个partition会均匀分布在集群的各个节点下。虽然这种方式能够有效的对数据进行分片，但是对于每个partition来说，都是单点的，当其中一个partition不可用的时候，那么这部分消息就没办法消费。所以kafka为了提高partition的可靠性而提供了副本的概念（Replica）,通过副本机制来实现冗余备份。

每个分区可以有多个副本，并且在副本集合中会存在一个leader的副本，所有的读写请求都是由leader 副本来进行处理。剩余的其他副本都做为follower副本，follower副本会从leader副本同步消息日志。这个有点类似zookeeper中leader和follower的概念，但是具体的时间方式还是有比较大的差异。所以我们可以认为，副本集会存在一主多从的关系。

区和副本的分配方式如下图：

可能通过上图，你云里雾里，既然知道命令，我们就通过命令来看看，到底如何分配。

bin/kafka-topics.sh --create --zookeeper localhost:2181

--replication-factor 2

--partitions 5

--topic test-part

通过命令可以看出 topic：test-part 指定了 5个分区，拷贝因子为2（代表只有一个副本），通过执行命令查看 topic：test-part 信息如下：

分区个数选择

既然分区效果这么好，是不是越多分区越好呢？显而易见并非如此。

分区越多，所需要消耗的资源就越多。甚至如果足够大的时候，还会触发到操作系统的一些参数限制。比如linux中的文件描述符限制，一般在创建线程，创建socket，打开文件的场景下，linux默认的文件描述符参数，只有1024，超过则会报错。

看到这里有读者就会不耐烦了，说这么多有啥用，能不能直接告诉我分区分多少个比较好？很遗憾，暂时没有。

因为每个业务场景都不同，只能结合具体业务来看。假如每秒钟需要从主题写入和读取1GB数据，而消费者1秒钟最多处理50MB的数据，那么这个时候就可以设置20-25个分区，当然还要结合具体的物理资源情况。

而如何无法估算出大概的处理速度和时间，那么就用基准测试来测试吧。创建不同分区的topic，逐步压测测出最终的结果。如果实在是懒得测，那比较无脑的确定分区数的方式就是broker机器数量的2~3倍

2.2、副本replica

每个分区可以有多个副本，并且在副本集合中会存在一个leader的副本，所有的读写请求都是由leader副本来进行处理。剩余的其他副本都做为follower副本，follower副本会从leader副本同步消息日志。

为什么 follower 副本不提供读服务？

这个问题本质上是对性能和一致性的取舍。试想一下，如果 follower 副本也对外提供服务那会怎么样呢？首先，性能是肯定会有所提升的。但同时，会出现一系列问题。类似数据库事务中的幻读，脏读。比如你现在写入一条数据到 kafka 主题 a，消费者 b 从主题 a 消费数据，却发现消费不到，因为消费者 b 去读取的那个分区副本中，最新消息还没写入。而这个时候，另一个消费者 c 却可以消费到最新那条数据，因为它消费了 leader 副本。Kafka 通过 WH 和 Offset 的管理来决定 Consumer 可以消费哪些数据，已经当前写入的数据。

2.2.1、副本类型集合

ISR：In-Sync Replicas。Kafka 中特别重要的概念，指代的是 AR 中那些与 Leader 保持同步的副本集合。在 AR 中的副本可能不在 ISR 中，但 Leader 副本天然就包含在 ISR 中。关于 ISR，还有一个常见的面试题目是如何判断副本是否应该属于 ISR。目前的判断依据是：Follower 副本的 LEO 落后 Leader LEO 的时间，是否超过了 Broker 端参数 replica.lag.time.max.ms 值。如果超过了，副本就会被从 ISR 中移除。

ISR数据保存在Zookeeper的 /brokers/topics//partitions//state 节点中

Kafka判断一个节点是否活着有两个条件：

1. 节点必须可以维护和ZooKeeper的连接，Zookeeper通过心跳机制检查每个节点的连接。

2. 如果节点是个follower,他必须能及时的同步leader的写操作，延时不能太久。

AR：Assigned Replicas 所有副本集合。AR 是主题被创建后，分区创建时被分配的副本集合，副本个数由副本因子决定。

2.2.2、Leader副本的选举过程

1. KafkaController会监听ZooKeeper的/brokers/ids节点路径，一旦发现有broker挂了，执行下面的逻辑。这里暂时先不考虑KafkaController所在broker挂了的情况，KafkaController挂了，各个 broker会重新leader选举出新的KafkaController。

2. leader副本在该broker上的分区就要重新进行leader选举，目前的选举策略是：

a) 优先从isr列表中选出第一个作为leader副本，这个叫优先副本，理想情况下有限副本就是该分区的leader副本
b) 如果isr列表为空，则查看该topic的unclean.leader.election.enable配置。 unclean.leader.election.enable：为true则代表允许选用非isr列表的副本作为leader，那么此时就意味着数据可能丢失，为 false的话，则表示不允许，直接抛出NoReplicaOnlineException异常，造成leader副本选举失败。
c) 如果上述配置为true，则从其他副本中选出一个作为leader副本，并且isr列表只包含该leader 副本。一旦选举成功，则将选举后的leader和isr和其他副本信息写入到该分区的对应的zk路径上。

在ISR中至少有一个follower时，Kafka可以确保已经commit的数据不丢失，但如果某个Partition的所有Replica都宕机了，就无法保证数据不丢失了

1. 等待ISR中的任一个Replica“活”过来，并且选它作为Leader

2. 选择第一个“活”过来的Replica（不一定是ISR中的）作为Leader

这就需要在可用性和一致性当中作出一个简单的折衷。如果一定要等待ISR中的Replica“活”过来，那不可用的时间就可能会相对较长。而且如果ISR中的所有 Replica都无法“活”过来了，或者数据都丢失了，这个Partition将永远不可用。选择第一个“活”过来的Replica作为Leader，而这个Replica不是ISR中的Replica，那即使它并不保证已经包含了所有已commit的消息，它也会成为Leader而作为consumer的数据源（前文有说明，所有读写都由Leader完成）。

2.3、副本数据同步

LEO：即日志末端位移(log end offset)，记录了该副本底层日志(log)中下一条消息的位移值。注意是下一条消息！也就是说，如果LEO=10，那么表示该副本保存了10条消息，位移值范围是[0, 9]。另外， leader LEO和follower LEO的更新是有区别的。

HW：即上面提到的水位值（Hight Water）。对于同一个副本对象而言，其HW值不会大于LEO值。小于等于HW值的所有消息都被认为是“已备份”的（replicated）。同理，leader副本和follower副本的 HW更新是有区别的。

通过下面这幅图来表达LEO、HW的含义，随着follower副本不断和leader副本进行数据同步，follower 副本的LEO会主键后移并且追赶到leader副本，这个追赶上的判断标准是当前副本的LEO是否大于或者等于leader副本的HW，这个追赶上也会使得被踢出的follower副本重新加入到ISR集合中。

另外，假如说下图中的最右侧的follower副本被踢出ISR集合，也会导致这个分区的HW发生变化，变成了3

2.3、副本数据同步原理

了解了副本的协同过程以后，还有一个最重要的机制，就是数据的同步过程。它需要解决

1. 怎么传播消息

2. 在向消息发送端返回ack之前需要保证多少个Replica已经接收到这个消息

数据的处理过程是

下图中，深红色部分表示test_replica分区的leader副本，另外两个节点上浅色部分表示follower副本

Producer在发布消息到某个Partition时，

先通过ZooKeeper找到该Partition的Leader get /brokers/topics//partitions/2/state ，然后无论该Topic的Replication Factor为多少（也即该Partition有多少个Replica），Producer只将该消息发送到该Partition的Leader。
Leader会将该消息写入其本地Log。每个Follower都从Leader pull数据。这种方式上，Follower 存储的数据顺序与Leader保持一致。
Follower在收到该消息并写入其Log后，向Leader发送ACK。
一旦Leader收到了ISR中的所有Replica的ACK，该消息就被认为已经commit了，Leader将增加 HW(HighWatermark)并且向Producer发送ACK。

2.3.1、副本初始状态

初始状态下，leader 和 follower 的 HW 和 LEO 都是 0，leader 副本会保存 remote LEO，表示所有 follower LEO，也会被初始化为 0，这个时候，producer 没有发送消息。follower 会不断地个 leader 发送 FETCH 请求，但是因为没有数据，这个请求会被 leader 寄存，当在指定的时间之后会强制完成请求，这个时间配置是 (replica.fetch.wait.max.ms)，如果在指定时间内 producer有消息发送过来，那么 kafka 会唤醒 fetch 请求，让 leader继续处理

数据的同步处理会分两种情况，这两种情况下处理方式是不一样的

第一种是 leader 处理完 producer 请求之后，follower 发送一个 fetch 请求过来、

第二种是follower 阻塞在 leader 指定时间之内，leader 副本收到producer 的请求。

这两种情况下处理方式是不一样的。

2.3.2、leader 处理完 producer 请求之后，follower 发送一个 fetch 请求过来

生产者发送一条消息

leader 处理完 producer 请求之后，follower 发送一个fetch 请求过来。状态图如下:

leader 副本收到请求以后，会做几件事情

把消息追加到 log 文件，同时更新 leader 副本的 LEO
尝试更新 leader HW 值。这个时候由于 follower 副本还没有发送 fetch 请求，那么 leader 的 remote LEO 仍然是 0。leader 会比较自己的 LEO 以及 remote LEO 的值发现最小值是 0，与 HW 的值相同，所以不会更新 HW。

follower 第一次发送 fetch 请求

follower 发送 fetch 请求，leader 副本的处理逻辑是:

读取 log 数据、更新 remote LEO=0(follower 还没有写入这条消息，这个值是根据 follower 的 fetch 请求中的offset 来确定的)
尝试更新 HW，因为这个时候 LEO 和 remoteLEO 还是不一致，所以仍然是 HW=0
把消息内容和当前分区的 HW 值发送给 follower 副本，follower 副本收到 response 以后

follower副本收到response以后

将消息写入到本地 log，同时更新 follower 的 LEO
更新 follower HW，本地的 LEO 和 leader 返回的 HW进行比较取小的值，所以仍然是 0 第一次交互结束以后，HW 仍然还是 0，这个值会在下一次follower 发起 fetch 请求时被更新

follower 第二次发送 fetch 请求如下图：

follower 发第二次 fetch 请求，leader 收到请求以后

读取 log 数据
更新 remote LEO=1，因为这次 fetch 携带的 offset 是1.
更新当前分区的 HW，这个时候 leader LEO 和 remoteLEO 都是 1，所以 HW 的值也更新为 1
把数据和当前分区的 HW 值返回给 follower 副本，这个时候如果没有数据，则返回为空

follower 副本收到 response 以后

如果有数据则写本地日志，并且更新 LEO
更新 follower 的 HW 值到目前为止，数据的同步就完成了，意味着消费端能够消费 offset=0 这条消息。

2.3.2、follower 的 fetch 请求是直接从阻塞过程中触发

前面说过，由于 leader 副本暂时没有数据过来，所以follower 的 fetch 会被阻塞，直到等待超时或者 leader 接收到新的数据。当 leader 收到请求以后会唤醒处于阻塞的fetch 请求。处理过程基本上和前面说的一直

leader 将消息写入本地日志，更新 Leader 的 LEO
唤醒 follower 的 fetch 请求
更新 HW

kafka 使用 HW 和 LEO 的方式来实现副本数据的同步，本身是一个好的设计，但是在这个地方会存在一个数据丢失的问题，当然这个丢失只出现在特定的背景下。我们回想一下，HW 的值是在新的一轮 FETCH 中才会被更新。我们分析下这个过程为什么会出现数据丢失。

2.4、数据丢失的问题

前提：min.insync.replicas=1 的时候。->设定 ISR 中的最小副本数是多少，默认值为 1, 当且仅当 acks 参数设置为-1（表示需要所有副本确认）时，此参数才生效. 表达的含义是，至少需要多少个副本同步才能表示消息是提交的所以，当 min.insync.replicas=1 的时候一旦消息被写入 leader 端 log 即被认为是“已提交”，而延迟一轮 FETCH RPC 更新 HW 值的设计使得 follower HW值是异步延迟更新的，倘若在这个过程中 leader 发生变更，那么成为新 leader 的 follower 的 HW 值就有可能是过期的，使得 clients 端认为是成功提交的消息被删除。

数据丢失的解决方案

在 kafka0.11.0.0 版本以后，提供了一个新的解决方案，使用 leader epoch 来解决这个问题，leader epoch 实际上是一对之(epoch,offset), epoch 表示 leader 的版本号，从 0开始，当 leader 变更过 1 次时 epoch 就会+1，而 offset 则对应于该 epoch 版本的 leader 写入第一条消息的位移。比如说

(0,0) ; (1,50); 表示第一个 leader 从 offset=0 开始写消息，一共写了 50 条，第二个 leader 版本号是 1，从 50 条处开始写消息。这个信息保存在对应分区的本地磁盘文件中，文件名为： /tml/kafka-log/topic/leader-epochcheckpoint

leader broker 中会保存这样的一个缓存，并定期地写入到一个 checkpoint 文件中。

当 leader 写 log 时它会尝试更新整个缓存——如果这个leader 首次写消息，则会在缓存中增加一个条目；否则就不做更新。而每次副本重新成为 leader 时会查询这部分缓存，获取出对应 leader 版本的 offset

如何处理所有的 Replica 不工作的情况

在 ISR 中至少有一个 follower 时，Kafka 可以确保已经commit 的数据不丢失，但如果某个 Partition 的所有 Replica 都宕机了，就无法保证数据不丢失了

等待 ISR 中的任一个 Replica“活”过来，并且选它作为Leader

这就需要在可用性和一致性当中作出一个简单的折衷。如果一定要等待 ISR 中的 Replica“活”过来，那不可用的时间就可能会相对较长。而且如果 ISR 中的所有 Replica 都无法“活”过来了，或者数据都丢失了，这个 Partition 将永远不可用。

2.选择第一个“活”过来的 Replica（不一定是 ISR 中的）作为 Leader

选择第一个“活”过来的 Replica 作为 Leader，而这个Replica 不是 ISR 中的 Replica，那即使它并不保证已经包含了所有已 commit 的消息，它也会成为 Leader 而作为consumer 的数据源（前文有说明，所有读写都由 Leader完成）。使用的是第一种策略

消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
分布式中间件-几个常用的消息中间件问道飞鱼分布式技术分布式中间件
文章目录常见消息中间件1.RabbitMQ2.ApacheKafka3.RedisPub/Sub4.ActiveMQ5.AmazonSimpleNotificationService(SNS)和SimpleQueueService(SQS)6.RocketMQ差异总结消息协议1.AMQP(AdvancedMessageQueuingProtocol)2.STOMP(SimpleTextOrient
消息中间件之ActiveMQ — 07 筑梦之人消息中间件MQ java activemq
集群配置官方文档主备集群官方文档MasterSlaveTypeRequirementsProsConsSharedFileSystemMasterSlave共享文件系统，如SAN需要运行多个slave。当master挂掉之后会自动进行故障恢复需要共享文件系统JDBCMasterSlave共享数据库需要运行多个slave。当master挂掉之后会自动进行故障恢复需要一个共享的数据库。也相对缓慢，因为
PHP使用rabbitMQ 每天瞎忙的农民工 php实战 rabbitMQ php rabbitmq
在PHP中使用RabbitMQ通常是为了处理异步任务、队列、消息推送等场景，特别是在高并发、分布式系统中，RabbitMQ提供了可靠的消息队列服务。RabbitMQ是基于AMQP协议的消息中间件，具有高效、可靠、可扩展的特点。下面将介绍如何在PHP中使用RabbitMQ，并结合场景给出实现方法。一、RabbitMQ基础概念Producer（生产者）：发送消息的客户端，负责将消息发送到消息队列。Co
Docker部署RocketMQ5.2.0集群 egzosn docker 容器运维
部署架构说明：(1)Producer：生产者(2)Consumer：消费者(3)NameServer：RockerMQ的注册中心，多个实例组成集群，但相互独立，没有信息交换。每个Broker都向所有NameServer实例注册。(4)Broker：负责存储消息、转发消息。部署模式RocketMQ作为消息中间件，其主要功能为消息的Publish/Subscribe。而Broker担任的消息转发和存储
面试真题：消费者积压问题的答案执于代码 #【面试题】面试职场和发展
对这个问题，笔者给出如下的建议方案消费者积压问题概述：定义与影响：消费者处理速度跟不上生产者发送速度消息队列长度不断增长，系统性能下降常见问题场景：高并发场景下，消费者处理能力不足消费者处理逻辑复杂或存在瓶颈监控与诊断这里我们需要监控的指标是队列长度，消费者处理速度，消息延迟时间具体三个指标，常用的诊断工具有消息中间件自带监控工具和第三方监控平台扩容与负载均衡消费者扩容方面增加，增加消费者实例数量
Redis总结星空怎样
[toc]Redis是什么Redis是C语言开发的一个开源的高性能键值对(key-value)的内存数据库，可以用作数据库、缓存、消息中间件等。这是一种NoSQL的数据库。Redis作为一个内存数据库：性能优秀，数据在内存中，读写速度非常快，支持并发10WQPS。单进程单线程，是线程安全的，采用IO多了复用机制。丰富的数据类型，支持字符串(strings)、散列(hash)、列表(lists)、集
【Java】已解决：MQBrokerException: CODE: 1 DESC: create mapped file failed, server is busy or broke 屿小夏 java 开发语言
文章目录一、分析问题背景场景示例：二、可能出错的原因三、错误代码示例错误分析：四、正确代码示例代码改进说明：五、注意事项在分布式消息中间件如ApacheRocketMQ的使用过程中，MQBrokerException是一个开发者可能会遇到的常见异常之一。特别是CODE:1DESC:createmappedfilefailed,serverisbusyorbroke这个错误，通常指示了在消息存储过程
Spring Boot 2.x实战94 - 事件驱动3 - Kafka与Kafka Streams 汪云飞记录本 Spring Boot2.x实战全集 spring boot kafka kafka streams KafkaListener
3.KafkaApacheKafka以Topic为导向，提供消息中间件的功能。一个类型的数据称之为一个Topic。3.1安装Kafka使用dockercompose安装ApacheKafka。stack.ymlversion:'3.1'services:zookeeper:image:wurstmeister/zookeeperrestart:alwayskafka:image:wurstmeis
SpringBoot程序MQ宕机备用方案-多活架构普照大帝& java 开发语言
1.配置文件定义多活选项在配置文件中定义使用MQ还是Redis，确保两者的配置参数都预先准备好。通过Nacos动态配置管理，可以在运行时根据服务状态选择合适的消息中间件。#application.ymlmessage.queue.type:mq#初始使用MQ，可以动态切换为redisimportorg.springframework.beans.factory.annotation.Value;i
SpringBoot中如何使用RabbitMq shenzhenNBA Java 管理者/开发者 java-rabbitmq spring boot rabbitmq
一，RabbitMQ简介和基本概念RabbitMQ是一个开源的消息中间件，基于AMQP（高级消息队列协议）实现。它由Erlang语言开发，并且支持多种编程语言，包括Java、Python、Ruby、PHP和C#等，下载并安装Erlang：因此在安装RabbitMQ之前必须先安装并配置好Erlang环境，安装完成后，需要将Erlang的bin目录添加到系统的PATH环境变量中，这样可以在命令行中直接
RabbitMQ之旅（一）：AMQP协议是什么 xuweizhen
为什么要了解AMQP？最近在学习RabbitMQ消息中间件，而RabbitMQ是AMQP的标准实现。要了解RabbitMQ，必须先了解AMQP协议。什么是AMQP(AdvancedMessageQueuingProtocol)？AMQP是一个提供统一消息服务的应用层标准协议，基于此协议的客户端和消息中间件之间可传递消息，并不受客户端/消息中间件产品/不同开发语言等条件限制。AMQP分层AMQP定义
消息中间件概述小孩真笨
什么是JMSJava消息服务（JavaMessageService）即JMS，是一个Java平台中关于面向消息中间件的API，用于在两个应用程序之间，或分布式系统中发送消息，进行异步通信。常用的消息中间件综述组件\特点ActiveMQRabbitMQKafka跨语言支持（Java优先）语言无关支持（Java优先）支持协议OpenWire,Stomp,XMPP,AMQPAMQP-优点遵循JMS规范，
消息中间件：深入理解 Kafka 的核心架构与组件解析 upgrador #消息中间件 kafka 架构 linq
消息中间件：深入理解Kafka的核心架构与组件解析Kafka是一种流行的分布式流处理平台，广泛应用于实时数据处理和消息队列场景。本文将深入解析Kafka的核心架构及其各个组成部分，包括Broker、主题、分区、生产者、消费者、消费者组、Zookeeper、日志、偏移量，以及Leader-Follower机制。通过清晰的关系图和详细的解释，帮助读者更好地理解Kafka各个组件之间的相互关系。文章目录
消息中间件：深入理解 Kafka的消息顺序和一致性、可靠性和高可用性第1版 upgrador #消息中间件 kafka linq 分布式
消息中间件：深入理解Kafka的消息顺序和一致性、可靠性和高可用性第1版Kafka是一种分布式消息中间件，它能够处理大规模的实时数据流，是现代分布式系统中的关键组件。作为高吞吐量、低延迟、强扩展性和高容错的消息系统，Kafka在各种场景中都表现出了卓越的性能。本文将深入探讨Kafka的适用场景、消息顺序与一致性保证、高可用性机制等关键知识点。文章目录消息中间件：深入理解Kafka的消息顺序和一致性
Node中间件（一）原理及错误处理中间件临渊羡鱼96 中间件 node.js html5 javascript 前端
一.中间件原理中间件：封装了请求对象与相应对象的能够实现特定功能的函数//use（）可以相应任意的方法请求，例如get,post,put,delete...//自定义错误消息中间件，如果用户的所有路由都不能匹配，在此给出一个有好的提示，注意一定要放在所有的路由的最后面。app.use((req,res)=>{res.send('对不起找不到你想要的资源');})作用：中间件值业务处理过程中中间环节
Centos7 下载安装Redis 你家的张少 CentOS7 redis 运维 centos
简介Redis是一个开源（BSD许可）的，内存中的数据结构存储系统，它可以用作数据库、缓存和消息中间件。它支持多种类型的数据结构，如字符串（strings），散列（hashes），列表（lists），集合（sets），有序集合（sortedsets）与范围查询，bitmaps，hyperloglogs和地理空间（geospatial）索引半径查询。Redis内置了复制（replication），L
Kafka命令详解：从零开始，掌握Kafka集群管理、主题操作与监控的全方位技能，理解每一条命令背后的逻辑与最佳实践长风清留扬大数据 Kafka Linux kafka 分布式 linux 大数据命令模式
本文主要是关于Kafka的命令详解，每个命令都进行了非常详细的注释，帮助大家能更好的理解这些命令背后的含义，从底层去理解，如果大家喜欢，请多多点赞关注，欢迎评论！为大家推荐几篇比较好的Kafka文章：Kafka分布式集群部署实战：跨越理论，直击生产环境部署难题与解决方案，性能调优、监控与管理策略大揭秘，轻松上手分布式消息中间件-CSDN博客ApacheKafka是一个开源的分布式消息系统，也是一个
【Redis 系列】redis 学习十三，Redis 常问简单面试题阿兵云原生
咱们一起来看看redis常问常用的面试题Redis是个啥？http://www.redis.cn/redis中文网给了很明确且清晰的定义[图片上传失败...(image-ff92fa-1650460734395)]Redis是一个开源（BSD许可）的，内存中的数据结构存储系统Redis可以用作数据库、缓存和消息中间件支持的数据结构有8种字符串（strings），散列（hashes），列表（list
消息中间件：Kafka消息丢失与堆积问题分析与解决方案 upgrador #消息中间件 kafka 分布式
消息中间件：Kafka消息丢失与堆积问题分析与解决方案Kafka作为分布式消息系统，广泛应用于实时数据流处理、大数据分析等领域。然而，在实际应用中，Kafka可能会面临消息丢失和消息堆积的问题，这些问题如果得不到有效处理，会严重影响系统的稳定性。本文将详细分析Kafka消息丢失与堆积的常见原因，并提供相应的解决方案。文章目录消息中间件：Kafka消息丢失与堆积问题分析与解决方案一、概述二、Kafk
Kafka基本概念不止会JS 中间件 kafka 分布式
目录1.生产者2.主题3.分区4.消费者5.消费者组消费者组加入和离开消费者组流程1.消费者加入消费者组2.消费者离开消费者组批处理1.生产者端的批量处理2.消费者端的批量处理Kafka是消息中间件的一种，相较于其他消息中间件，其以极高的吞吐量闻名，常用于构建实时数据管道和流应用，能够处理高吞吐量的数据流。以下是Kafka中的重要概念：1.生产者生产者是向Kafka主题发送消息的客户端。生产者负责
【redis】redis简单入门泡芙冰淇淋ya redis redis 数据库缓存
1、简介定义：Redis是一个开源的、内存中的数据结构存储系统，它可以用作数据库、缓存和消息中间件。特点：高性能：读写速度非常快，支持每秒执行数十万次读写操作。基于内存：所有数据都存储在内存中，使得数据访问非常迅速。数据结构丰富：支持多种数据类型，如字符串（string）、列表（list）、集合（set）、有序集合（sortedset）和哈希（hash）。支持持久化：可以将内存中的数据定期写入磁盘
RabbitMQ Qzer_407 后端技术栈 rabbitmq 分布式后端 java
RabbitMQ是一款广泛使用的开源消息中间件，它基于Erlang语言实现，并遵循高级消息队列协议（AMQP）。RabbitMQ在分布式系统中扮演着重要的角色，主要用于存储和转发消息，支持高并发、高可用性和高可靠性的消息传递。以下是对RabbitMQ的详细解析：一、基本概念生产者（Producer）：发送消息到RabbitMQ的实体。消费者（Consumer）：从RabbitMQ接收消息的实体。队
简要剖析RocketMQ：原理、架构与实践细节皮皮哥1号 rocketmq 架构
引言在分布式系统中，消息队列扮演着至关重要的角色，它解决了系统间的耦合、异步通信、流量削峰等问题。RocketMQ是由阿里巴巴开源的一个高性能、低延迟、可扩展的分布式消息中间件。一、RocketMQ的基本概念1.1文章结构在详细讲解之前，以下是RocketMQ的一些基本概念：1.2消息（Message）消息是RocketMQ中传递的数据单元，它由以下几部分组成：消息体（Body）：实际传输的数据。
Apache Kafka的伸缩性探究：实现高性能、弹性扩展的关键 i289292951 kafka kafka
引言ApacheKafka作为当今最流行的消息中间件之一，以其强大的伸缩性著称。在大数据处理、流处理和实时数据集成等领域，Kafka的伸缩性为其在面临急剧增长的数据流量和多样化业务需求时提供了无与伦比的扩展能力。本文将深入探讨Kafka如何通过其独特的架构设计实现高水平的伸缩性，以及在实际部署中如何优化和利用这一特性。一、Kafka伸缩性的核心设计分区（Partitioning）与水平扩展Kafk
Kafka、ActiveMQ、RabbitMQ 及 RocketMQ区别比较木西爷 kafka activemq rabbitmq 阿里云 rocketmq
消息队列中间件是分布式系统中重要的组件，主要解决应用耦合、异步消息、流量削锋等问题。它可以实现高性能、高可用、可伸缩和最终一致性架构，是大型分布式系统不可缺少的中间件。消息队列在电商系统、消息通讯、日志收集等应用中扮演着关键作用，以阿里为例，其研发的消息队列（RocketMQ）在历次天猫“双十一”活动中支撑了万亿级的数据洪峰，为大规模交易提供了有力保障。常见消息中间件对比特性ActiveMQRab
RabbitMQ的安装白泽27 rabbitmq 分布式
典型应用场景：异步处理。把消息放入消息中间件中，等到需要的时候再去处理。流量削峰。例如秒杀活动，在短时间内访问量急剧增加，使用消息队列，当消息队列满了就拒绝响应，跳转到错误页面，这样就可以使得系统不会因为超负载而崩溃Linux下安装#拉取镜像dockerpullrabbitmq:3.8-management#创建容器启动dockerrun-d--restart=always-p5672:5672-
Redis常见问题爱码的嘉 Redis redis 数据库缓存
1、什么是redis？Redis是C语言开发的一个开源的高性能键值对（key-value）的内存数据库，可以用作数据库、缓存、消息中间件等。它是一种NoSQL的数据库。性能优秀，数据在内存中，读写速度非常快，支持并发10WQPS。单进程单线程，是线程安全的，采用IO多路复用机制。丰富的数据类型，支持字符串、散列、列表、集合、有序集合等。支持数据持久化。可以将内存中数据保存在磁盘中，重启时加载。主从
Java架构师之路四、分布式系统：分布式架构、分布式数据存储、分布式事务、分布式锁、分布式缓存、分布式消息中间件、分布式存储等。述清-架构师之路 Java架构师之路 java 分布式架构
目录分布式架构：分布式数据存储：分布式事务：分布式锁：分布式缓存：分布式消息中间件：分布式存储：Java架构师之路三、网络通信：TCP/IP协议、HTTP协议、RESTfulAPI、WebSocket、RPC等。-CSDN博客Java架构师之路五、微服务：微服务架构、服务注册与发现、服务治理、服务监控、容器化等。-CSDN博客分布式架构：分布式架构是一种计算机系统设计方法，它将一个复杂的系统划分为
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。