【原创】kafka consumer源代码分析

顾名思义，就是kafka的consumer api包。

一、ConsumerConfig.scala

Kafka consumer的配置类，除了一些默认值常量及验证参数的方法之外，就是consumer的配置参数了，比如group.id, consumer.id等，详细列表见官网。

二、ConsumerIterator.scala

KafkaStream的迭代器类，当stream底层的阻塞队列为空时该iterator会置于阻塞状态。这个迭代器还提供了一个shutdownCommand对象可作为一个标识位被加入到队列中从而触发关闭操作。

既然是迭代器，最重要的next方法一定是要提供的。下面我们依次分析下其定义的方法：

1. next：获取下一个元素。具体逻辑就是用父类的next方法获取下一个MessageAndMetadata，然后再更新一下consumer的度量元统计信息

2. makeNext：核心方法，具体逻辑如下：

获取当前的迭代器，如果是空，就获取一个。具体做法就是根据超时配置以不同的方式从获取底层的channel中读取一个数据块
如果该数据块是关闭命令，直接返回
否则，获取当前的topic信息。如果要请求的位移值比当前已消耗的位移大，那么consumer就有可能会丢失数据。
之后获取一个iterator，并调用next方法获取下一个元素，并构造新的MessageAndMetadata实例返回

3. clearCurrentChunk：清除当前的数据块，即清空了当前的迭代器引用

三、KafkaStream.scala

定义了一个Kafka consumer stream。每个stream都支持迭代遍历其MessageAndMetadata元素。内部维护了一个迭代器ConsumerIterator。KafkaStream定义的方法如下：

1. iterator：返回内部维护的迭代器

2. clear：在consumer重分布时清除被迭代的队列。主要是为了减少consumer接收到重复消息

四、ConsumerConnector.scala

consumer的主接口。定义了一个trait和一个object。ConsumerConnector trait定义了一些抽象方法：

1. createMessageStreams：为每个topic创建一组KafkaStream

2. createMessageStreams （支持指定KeyDeCoder和ValueDecoder）

3. createMessageStreamsByFilter：也是为给定的所有topic创建一组KafkaStream，只不过这个方法允许传递一个filter，允许黑白名单过滤

4. commitOffsets：向连接此consumer connector的所有broker分区执行提交位移操作

5. shutdown：关闭connector

而Consumer object定义了两个方法：

1. create：创建一个ConsumerConnector

2. createJavaConsumerConnector：创建一个java client使用的consumer connector

五、FetchedDataChunk.scala

表示一段获取到的数据块，封装了一组保存在一个字节缓冲区的消息，分区topic信息以及获取到的位移值

六、PartitionAssignor.scala

为一个consumer group中的consumer做分区分配的。PartitionAssignor trait定义了assign方法，返回分区到consumer线程的映射记录。其中被分配的线程必须要属于给定分区上下文(AssignmentContext)中的某个consumer。

说到分配上下文类——AssignmentContext，它需要接收一个consumer group、一个consumer id以及一个zkClient，并在内部维护了一个map记录topic对应的consumer线程集合(主要由TopicCount类中的方法提供)。其定义的方法还包括：

1. partitionsForTopic：返回topic对应的分区集合

2. consumersForTopic：返回topic对应的consumers线程

3. consumers：返回consumers id的集合

PartitionAssignor object定义了一个工厂方法用于创建不同策略的分区分配器，目前Kafka支持两种再平衡策略(也就是分区分配策略)：round robin和range。值得注意的是，这里所说的分区策略其实是指指如何将分区分配给消费组内的不同consumer实例。

假设我们有一个topic：T1，T1有10个分区，分别是[P0， P9]，然后我们有2个consumer，C1和C2。C1有一个线程，C2有两个线程。

下面我们来看看默认的range策略是如何分配分区的：

1. Range策略

对于每一个topic，range策略会首先按照数字顺序排序所有可用的分区，并按照字典顺序列出所有的consumer线程。结合我们上面的例子，分区顺序是0,1,2,3,4,5,6,7,8,9，而consumer线程的顺序是c1-0, c2-0, c2-1。然后使用分区数除以线程数以确定每个线程至少获取的分区数。在我们的例子中，10/3不能整除，余数为1，因此c1-0会被额外多分配一个分区。最后的分区分配如下：

c1-0 获得分区 0 1 2 3

c2-0 获得分区 4 5 6

c2-1 获得分区 7 8 9

如果该topic是11个分区，那么分区分配如下：

c1-0 获取分区 0 1 2 3

c2-0 获取分区 4 5 6 7

c2-1 获取分区 8 9 10

2. roundrobin策略——轮询策略

如果是轮询策略，我们上面假设的例子就不适用了，因为该策略要求订阅某个topic的所有consumer都必须有相同数目的线程数，因此我们修改上面的例子，假设每个consumer都有2个线程。round robin策略与range的一个主要的区别就是在再分配之前你是没法预测分配结果的——因为它会使用哈希求模的方式随机化排序顺序。

如果要采用roundrobin策略必须要先满足两个条件：

订阅topic的consumer必须有相同数目的线程数
consumer group内每个consumer实例都必须有相同的被订阅topic集合

当这两个条件满足后，kafka会将topic-partition对根据hashcode进行随机排序以防某个topic的所有分区都被分配给一个consumer。之后所有的topic-partition对按照轮询的方式分配给可用的consumer线程。以我们改进过的例子来说，假设排序之后的topic-分区是这样的：

T1-5, T1-3, T1-0, T1-8, T1-2, T1-1, T1-4, T1-7, T1-6和T1-9，而consumer线程是c1-0, c1-1, c2-0, c2-1.那么最后的分区结果如下：

T1-5 去 c1-0

T1-3 去 c1-1

T1-0 去 c2-0

T1-8 去 c2-1

此时所有的consumer线程已经分配过了，但还有尚未分配的分区，这时候就从头再次分配线程：

T1-2 去 c1-0

T1-1 去 c1-1

T1-4 去 c2-0

T1-7 去 c2-1

再次从头开始，

T1-6 去 c1-0

T1-9 去 c1-1

此时所有的分区都已经分配过了，每个consumer线程能够分配到几乎相同数目的分区——这就是round robin的方式。

七、TopicCount.scala

该scala定义了很多类，我们一一分析：

1. ConsumerThreadId：封装了consumer id和线程id。因为扩展了Ordered接口，因此支持按照字典顺序排序。主要为分区策略使用。

2. TopicCount trait：提供topic分组统计的主接口，定义了三个方法：

getConsumerThreadIdsPerTopic——返回topic及其Consumer线程id集合的映射
getTopicCountMap——返回topic对应consumer stream数的映射
pattern：目前有三种pattern：static、white_list和black_list。通过对黑白名单的支持，允许consumer订阅多个topic

3. TopicCount object：定义了一些常用方法，比如：

makeThreadId：consumer thread的命名规则是[consumer id]-thread id
makeConsumerThreadIdsPerTopic：为给定的一组topic创建出一组ConsumerThreadId来
constructTopicCount：根据给定的consumer group和consumer id创建一个TopicCount。具体逻辑如下：

读取/consumers/[group_id]/ids/[consumer_id]节点下的数据(JSON)
解析这个JSON串，提取出各个字段的值
如果pattern是static类型，创建一个StaticTopicCount返回；否则创建一个WildcardTopicCount返回

constructTopicCount还有另外两个重载方法，分别创建StaticTopicCount和WildcardTopicCount

4. StaticTopicCount类：实现了TopicCount接口。其pattern类型为static

5. WildcardTopicCount类：实现了TopicCount接口。根据给定的TopicFilter来判断pattern是white_list还是black_list

八、TopicFilter.scala

TopicFilter抽象类，用于解析topic的正则表达式，并提供一个isTopicAllowed方法用于过滤topic。它有两个子类：Whitelist和Blacklist分别实现白名单过滤和黑名单过滤。

九、PartitionTopicInfo.scala

封装了topic的分区信息，包括这个分区的数据块队列，已消费的位移、已获取的位移以及获取大小等信息。另外提供了一些setter和getter方法可以获取并设置这些信息

十、ZookeeperConsumerConnector.scala

该类主要负责处理consumer与zookeeper之间的交互。

与consumer相关的zookeeper目录结构：

1. consumer id注册节点： /consumers/[group_id]/ids/[consumer_id] 每个consumer在consumer group内有个唯一的id号。它会将该id号以临时节点的方式注册到zookeeper的对应目录中，并把它订阅的所有topic都封装到subscription子JSON元素中。因为是临时节点，consumer一结束zookeeper就会删除该节点。值得注意的是，consumer id的命名没有采用顺序节点的方式，而是从配置中选定的——主要是因为顺序生成节点不利于错误恢复

2. broker节点注册：/brokers/ids/[brokerId]. 每个broker节点都会被分配一个逻辑节点号，从0开始。broker启动时会将其自身注册到zookeeper中——即在/brokers/ids下创建一个以逻辑节点号命名的子节点。这个znode的值是一个JSON串包含以下信息：

version：版本号，固定为1
host：broker的IP地址或主机名
port：broker端口
jmx：若启用了jmx，就是jmx的端口号，否则为-1
timestamp：broker创建时的时间戳

3. 分区注册信息： /consumers/[group_id]/owners/[topic]/[partitionId]。

4. consumer位移信息：/consumers/[group_id]/offsets/[topic]/[partitionId] -> 位移

这个scala定义了一组伴生对象，其中object中就只有一个变量shutdownCommand用于标识关闭标识。当在队列中看到这个标识的时候就需要结束迭代过程。而ZookeeperConsumerConnector类是这个文件中的核心。它实现了ConsumerConnector trait，因此也就要实现该trait定义的那些抽象方法。

下面先分析一下该类定义的一些重要字段：

1. isShuttingDown：用于标识该connector的状态是否正处理关闭状态

2. fetcher：ConsumerFetcher管理器，用于管理fetcher线程

3. zkClient：用于连接zookeeper的客户端

4. topicRegistry：保存topic下的分区信息

5. checkpointedZkOffsets：保存topic分区对应的位移

6. topicThreadIdAndQueues：保存topic与其消费者线程对应的阻塞队列

7. scheduler：调度器每过auto.commit.interval.ms时间就向zookeeper提交consumer位移

8. messageStreamCreated：标识KafkaStream是否已经创建

9. sessionExpirationListener/topicPartitionChangeListener/loadBalancerListener：三个zk监控器，分别由三个嵌套类实现，后面会提及

10. offsetsChannel：用于发送OffsetFetchRequst的通道

11. wildcardTopicWatcher:ZookeeperTopicEventWatcher类实现的topic事件监听类

12. consumerIdString：定义了如何命名consumer id的规则。如果没有指定consumer.id了，就设置为consumer group_主机名-时间戳-(uuid的一部分)

在构造函数中，该类会首先连接zookeeper，然后创建Fetcher管理器并会以阻塞的方式确认连上副本管理器，最后如果开启了自动提交(auto.commit.enable)，那么使用调度器创建一个定时任务。

下面重点说说它提供的一些方法：

1. connectZk：连接zookeeper.connect中指定的zookeeper，就是创建zkClient

2. createFetcher：创建ConsumerFetcherManager

3. ensureOffsetManagerConnected：该方法会一直阻塞知道确认找到可用的副本管理器，其底层的IO通道也已创建。该方法只是针对使用kafka来保存consumer位移的情况——即设置offsets.storage=kafka

4. shutdown：关闭该connector，主要涉及到关闭wildcardTopicWatcher、调度器、fetcher管理器、清除所有队列、提交位移以及关闭zookeeper客户端和位移通道等

5. registerConsumerInZK：在zookeeper中注册给定的consumer——即在zookeeper的/consumers/[groupId]/ids下创建一个临时节点

6. sendShutdownToAllQueues：清除topicThreadIdAndQueues中的队列并向所有队列发送关闭命令

7. autocommit：自动提交位移，主要由方法commitOffsets实现

8. commitOffsetToZooKeeper：向zookeeper提交位移，就是更新指定节点的数据并将offset保存在checkpointedZKOffsets缓存中

9. commitOffsets：提交位移。在具体分析代码之前，先来分析下属性offsets.commit.retries——重试位移的次数。它只对关闭connector时候的位移提交有效，而不计算自动提交线程发起的提交。它也不考虑在提交前的查询位移。比如一个consumer元数据请求基于某种原因失败了，它会被重试但并不计入这个统计之中。commitOffsets貌似参数含义写反了，它现在的参数名是isAutoCommit，但实际实际调用过程中，如果是自动提交反而需要指定false。

具体逻辑如下：

根据是否为自动提交来设定重试次数——如果是为1次即不重试；否则为offsets.commit.retries + 1
从topicRegistry中构建要提交的位移集合
如果该集合是空自然也不需要提交什么，否则判断一下使用何种存储来保存consumer位移
如果是zookeeper保存(默认情况)，遍历待提交位移集合，为每一个topic分区去zookeeper的对应节点下更新位移
如果是kafka来保存位移，

首先要创建OffsetCommitRequest请求
然后确保能够连上副本管理器
发送OffsetCommitRequest请求并得到对应的response
找出response中包含的错误码，如果有错误标记为提交位移失败

10. fetchOffsetFromZooKeeper：从Zookeeper中获取给定分区的位移

11. fetchOffsets：获取一组分区的consumer位移，如果是保存在zookeeper中直接调用fetchOffsetFromZooKeeper获取，否则具体逻辑如下：

创建OffsetFetchRequest
确保连入副本管理器并发送OffsetFetchRequest请求，获取对应的response
如果leader发生了变更或位移缓存正在加载中的话则返回的response是空——以便后面重试
查看是否启用了双路位移提交(dual.commit.enable)——比如一个consumer group正在从迁移zookeeper中的位移到kafka中，如果没有的话直接返回response，否则就从zookeeper和kafka中选取大的那个返回给response

该类还有一些很重要的方法，但我们先看一下该scala文件中嵌套定义的4个类：

1. ZKSessionExpireListener —— 监听zookeeper会话过期的监听器。因为事先了IZKStateListener接口，因此也必须实现handleStateChanged和handleNewSession两个方法。

handleStateChanged：什么都不用做，因为zookeeper客户端会重连
handleNewSession：zookeeper会话过期后调用该方法来创建新的会话。也就是重建临时节点，重新注册consumer。主要逻辑就是

首先清空topicRegistry分区信息缓存
在zookeeper中重新注册consumer (registerConsumerInZK)
在consumer上重新发起负载均衡操作——通过负载均衡监听器的syncRebalance方法。另外由于在负载均衡过程中会重新注册子节点变更和状态变更的监听器，因此handleNewSession方法中就不在重订阅它们了。

2. ZKTopicPartitionChangeListener：也是一个监听器，用于监听zookeeper节点数据的变更。两个方法：

handleDataChange： topic数据发生变更时调用该方法，应对的方法就是调用relabalanceEventTriggered通知所有监听执行线程继续执行
handleDataDeleted：抛出警告表明topic数据被意外地删除了

3. ZKRebalancerListener：监听zookeeper子节点变更的监听器，用于触发consumer的负载均衡。在类的内部它会创建一个监控执行线程用于监控给定的consumer，一旦监控到要触发rebalance就调用syncedRebalance开始执行rebalance。因为是zookeeper的子节点监听类，它还必须实现handleChildChange，用于触发rebalacen事件。下面一一分析其定义的方法：

rebalanceEventTriggered —— 设置isWatcherTriggered为true并唤醒监控线程开始执行rebalance操作
deletePartitionOwnershipFromZK —— 从zookeeper中删除给定topic分对应的分区znode： /consumers/[groupId]/owners/[topic]/[partition]，就是删除这个consumer的注册信息
releasePartitionOwnership —— 通过循环调用deletePartitionOwnershipFromZK方法，取消给定所有topic的所有分区的consumer注册信息。并删除对应的统计信息以及清空对应的计数器
resetState —— 清空该consumer connector上注册的所有topic信息
clearFetcherQueues —— 清空fetcher相关的所有队列以及当前正在consumer线程中遍历的数据块(data chunk)
closeFetchersForQueues —— 停止所有fetcher线程并清空所有队列避免数据重复。在清空fetcher之前先要停掉leader发现线程。之后如果启用了自动提交位移还是需要提交位移以防止consumer从当前数据块中再返回消息。由于分区注册信息还在zookeeper中没有被释放，本次提交位移能够保证现在提交的位移会被下一个拥有当前数据块分区的consumer线程所使用。因为fetcher总是要关闭的并且这是consumer遍历的最后一个数据块，迭代器就不会再返回任何新的消息了直到rebalance成功完成且fetcher重启之后获取更多的数据块
closeFetchers —— 清空consumer"可能"不再消费的topic分区的fetcher队列
updateFetcher —— 更新fetcher的分区
reflectPartitionOwnershipDecision —— 判断consumer是否是给定topic分区的owner，即在zookeeper上创建/consumers/[groupId]/owners/[topic]/[partition]，如果能创建就是owner
addPartitionTopicInfo —— 将给定的topic分区信息加入到这个connector的缓存中
reinitializeConsumer —— 重新初始化consumer，主要就是创建各种监听器，更新各种缓存等
rebalance —— 根据可用broker重新分配consumer-topic分区的对应记录
syncedRebalance —— 重新再平衡分配consumer-topic分区的对应记录

4. WildcardStreamsHandler类：用于做topic的通配符过滤之用

十一、ConsumerFetcherManager.scala

consumer fetcher的管理类，其定义的startConnections和stopConnections方法会被反复地调用。该类主要定义了一个嵌套类：
LeaderFinderThread —— 顾名思义，就是leader发现者线程，当leader可用时，将fetcher添加到对应的broker上

十二、ConsumerFetcherThread.scala

consumer获取线程，三个方法：

1. processPartitionData：处理获取到的数据，主要就是将消息集合入队列等待处理

2. handleOffsetOutOfRange：处理一个分区的位移越界的情况，主要根据auto.offset.reset属性设定的值来指定

3. handlePartitionsWithErrors：处理没有leader需要leader选举的分区

十三、ConsumerTopicStats.scala

consumer的统计信息类，就不详细说了

十四、FetchRequestAndResponseStats.scala

统计一个给定的consumer客户端提交给所有broker的所有FetchRequest请求统计信息以及对应的response统计信息

十五、TopicEventHandler.scala

一个处理topic事件的trait，只定义了一个方法：handleTopicEvent

十六、ZookeeperTopicEventWatcher.scala

监控/brokers/topics节点下各个topic子节点的变更

十七、SimpleConsumer.scala

kafka消息的consumer。它会维护一个BlockingChannel用于收发请求/响应，因此也提供了connect和disconnect方法用于开启和关闭底层的blockingchannel。该类的定义核心方法还包括：

1. send，也就是发送TopicMetadataRequest和ConsumerMetadataRequest

2. getOffsetsBefore：获取给定时间之前的一组有效位移

3. commitOffsets：提交一个topic的位移。请求中如果版本是0，提交位移给zookeeper，否则提交位移给Kafka

4. fetchOffsets：获取一个topic的位移。版本0从zookeeper中获取，否则从kafka中获取

5. earliestOrLatestOffset：为给定的topic分区获取最早或最新的位移

6. fetch：从FetchRequest中获取一个topic的一组消息

Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
Kafka 基础与架构理解 StaticKing KAFKA kafka
目录前言Kafka基础概念消息队列简介：Kafka与传统消息队列（如RabbitMQ、ActiveMQ）的对比Kafka的组件Kafka的工作原理：消息的生产、分发、消费流程Kafka系统架构Kafka的分布式架构设计Leader-Follower机制与数据复制Log-basedStorage和持久化Broker间通信协议Zookeeper在Kafka中的角色总结前言Kafka是一个分布式的消息系
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
Docker安装Kafka和Kafka-Manager 阿靖哦
本文介绍如何通过Docker安装kafka与kafka界面管理界面一、拉取zookeeper由于kafka需要依赖于zookeeper，因此这里先运行zookeeper1、拉取镜像dockerpullwurstmeister/zookeeper2、启动dockerrun-d--namezookeeper-p2181:2181-eTZ="Asia/Shanghai"--restartalwayswu
主流行架构 rainbowcheng 架构架构
nexus，gitlab,svn,jenkins,sonar,docker，apollo，catteambition，axure，蓝湖，禅道,WCP；redis，kafka，es，zookeeper，dubbo，shardingjdbc，mysql，InfluxDB，Telegraf，Grafana，Nginx，xxl-job，Neo4j,NebulaGraph是一个高性能的,NOSQL图形数据库
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
分布式消息队列Kafka 叶域大数据分布式 kafka scala spark
分布式消息队列Kafka简介：Kafka是一个分布式消息队列系统，用于处理实时数据流。消息按照主题（Topic）进行分类存储，发送消息的实体称为Producer，接收消息的实体称为Consumer。Kafka集群由多个Kafka实例（Server）组成，每个实例称为Broker。主要用途：广泛应用于构建实时数据管道和流应用程序，适用于需要高吞吐量和低延迟的数据处理场景依赖：Kafka集群和消费者依
K8S学习之PV&&PVC david161
部署mysql之前我们需要先了解一个概念有状态服务。这是一种特殊的服务，简单的归纳下就是会产生需要持久化的数据，并且有很强的I/O需求，且重启需要依赖上次存储到磁盘的数据。如典型的mysql，kafka，zookeeper等等。在我们有比较优秀的商业存储的前提下，非常推荐使用有状态服务进行部署，计算和存储分离那是相当的爽的。在实际生产中如果没有这种存储，localPV也是不错的选择，当然local
Kafka系列之：kafka命令详细总结快乐骑行^_^ 日常分享专栏 Kafka Kafka系列 kafka命令详细总结
Kafka系列之：kafka命令详细总结一、添加和删除topic二、修改topic三、平衡领导者四、检查消费者位置五、管理消费者群体一、添加和删除topicbin/kafka-topics.sh--bootstrap-serverbroker_host:port--create--topicmy_topic_name\--partitions20--replication-factor3--con
搭建Kafka+zookeeper集群调度 krb___ kafka 分布式
前言硬件环境172.18.0.5kafkazk1Kafka+zookeeperKafkaBroker集群172.18.0.6kafkazk2Kafka+zookeeperKafkaBroker集群172.18.0.7kafkazk3Kafka+zookeeperKafkaBroker集群软件环境zookeeper3.5.9资源调度、写作Kafka2.8.0消息通信中间件安装JDK1.8安装搭建zo
Kafka和Pulsar深入解析 jasen91 大数据开发 kafka 分布式
Kafka多租户：单租户系统数据迁移：依赖MirrorMaker，需要额外维护。市场上也有ConfluentReplicator等供应商工具。分层存储：由供应商提供商业使用。组件依赖：KafkaRaft（KRaft）从Kafka2.8开始处于早期访问模式，允许Kafka在没有ZooKeeper的情况下工作。这对Kafka来说是一个显著的优势，因为它简化了Kafka的体系结构并降低了学习成本。云原生
Linux系统部署Kafka教学情书学长 linux 学习笔记 kafka
第一步：Zookeeper安装（准备工作）1、解压安装将安装包上传到/opt/software目录下，解压并修改名称tar-zxvfapache-zookeeper-3.5.7-bin.tar.gz-C/opt/module/mvapache-zookeeper-3.5.7-bin/zookeeper2、配置服务器编号1)在/opt/module/zookeeper-3.5.7/这个目录下创建zk
数仓开发之DWD层完整使用 (第五章) 小坏讲微服务数据仓库 hadoop scala kafka
数仓开发之DWD层完整使用一、流量域未精加工的事务事实表1、主要任务1）数据清洗（ETL）2）新老访客状态标记修复3）分流2、思路1）数据清洗（ETL）2）新老访客状态标记修复（1）前端埋点新老访客状态标记设置规则（2）新老访客状态标记修复思路3）利用侧输出流实现数据拆分（1）埋点日志结构分析（2）分流日志分类（3）分流思路3、图解4、代码1）在KafkaUtil工具类中补充getKafkaPro
Kafka 应用场景 zinuxer kafka 分布式
数据流处理：Kafka支持实时数据流处理，能够在数据流动时进行处理和分析，确保应用程序与最新信息保持同步！日志聚合：可以将来自不同来源的日志集中和聚合，简化应用程序的调试和监控！消息队列：Kafka充当高性能的消息队列，确保不同系统组件之间可靠且可扩展的通信！网络活动追踪：Kafka可以追踪网络活动，改进用户体验和推动业务增长！数据复制：Kafka允许在多个集群之间实现无缝数据复制，确保高可用性和
Kafka的ack机制香山上的麻雀
ack=0/1/-1的不同情况：0：producer不等待broker的ack，broker一接收到还没有写入磁盘就已经返回，当broker故障时有可能丢失数据；1：producer等待broker的ack，partition的leader落盘成功后返回ack，如果在follower同步成功之前leader故障，那么将会丢失数据；-1：producer等待broker的ack，partition的
Kafka 实战 - Kafka分区和副本机制理解用心去追梦 kafka 分布式
ApacheKafka的分区（Partition）和副本（Replica）机制是其核心架构和可靠性保证的关键组成部分。以下是对其理解的详细解释：分区（Partition）分区概念：在Kafka中，每个主题（Topic）可以被划分为多个分区。分区是一个有序的、不可变的消息序列。这意味着消息在分区中按生成顺序存储，每个消息都有一个唯一的偏移量（Offset）。目的：分区的主要目的是为了水平扩展和并行处
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
zookeeper+kafka消息队列部署 TBF610218 zookeeper kafka 分布式
消息队列的概念什么是消息队列消息是指在应用间传送的数据消息队列是一种应用间的通信方式解决方法，确保消息的可靠传递专门为消息做缓存的消息队列的特征存储将消息存储在某个类型的缓冲区中，指导目标进读取这些消息或者将其从消息队列中显示移除为止异步消息队列通过缓冲消息可以在应用程序当中公开一定程度的异步性，允许源进程发送消息并在队列当中累积消息，而且目标进程可以挑选消息并进行处理为什么需要消息队列解耦冗余扩
分布式中间件-几个常用的消息中间件问道飞鱼分布式技术分布式中间件
文章目录常见消息中间件1.RabbitMQ2.ApacheKafka3.RedisPub/Sub4.ActiveMQ5.AmazonSimpleNotificationService(SNS)和SimpleQueueService(SQS)6.RocketMQ差异总结消息协议1.AMQP(AdvancedMessageQueuingProtocol)2.STOMP(SimpleTextOrient
kafka php 教程,php 使用kafka weixin_39713841 kafka php 教程
准备工作gitclonehttps://github.com/edenhill/librdkafka.git./configuremakesudomakeinstall$gitclonehttps://github.com/arnaud-lb/php-rdkafka.git#生成configure文件$/Users/shiyibo/LNMP/php/bin/phpize#编译安装$./config
Kafka快速入门 G丶AEOM 速成学习区 kafka linq 分布式
讲一下什么是Kafka首先引入这样一个场景：A服务可以发送200qps（QueriesPerSecond，是指每秒查询率），而B服务可以处理100qps。很显然，B服务很可能会被A服务压垮掉。怎么为了保证B不被压垮的同时还能处理A消息，没有什么是不能通过一层中间件解决的，如果有，那就再加一层。开始很容易想到，可以在B服务中增加一个队列，其实就是个链表，B服务根据自己的消费能力，消费链表中的消息。每
【Python系列】异步任务的终止 Kwan的解忧杂货铺@新空间代码工作室 s2 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
老版本kafka查询topic消费情况(python查询) 代码是谁 kafka python 分布式
由于老版本的kafka缺少shell，导致无法通过命令直接进行查询，所以通过python代码，实现消费情况查询安装必须的包#pyhon2.5pipinstallkafka-python==1.4.7python脚本#!/usr/bin/envpythonimportsysfromkafkaimportKafkaConsumer,TopicPartitioniflen(sys.argv)!=2:pr
【Python系列】使用切片移动元素位置 Kwan的解忧杂货铺@新空间代码工作室 s2 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
字节架构师：来说说 Kafka 的消费者客户端详解，你都搞懂了吗？ 2401_84049200 程序员 kafka linq 分布式
点对点模式基于队列，类似于同一个消费者组中的数据，由生产者发送数据到分区，然后消费者拉取分区的消息进行消费，此时消息只能被同一个消费者组的消费者消费一次。发布订阅模式模式就是kafka中的分区消息可以被不同消费者组的消费者消费。这就是一对多的广播模式应用。当然，消费者组是一个逻辑的概念，通过客户端参数group.id来配置，默认值为空字符串。而消费者并不是逻辑的概念，它是真正消费数据的实体，可以是
Java Kafka生产者实现 stormsha Java web java kafka linq
欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐：「stormsha的主页」，「stormsha的知识库」持续学习，不断总结，共同进步，为了踏实，做好当下事儿~专栏导航Python系列:Python面试题合集，剑指大厂Git系列:Git操作技巧GO系列:记录博主学习GO语言的笔记，该笔记专栏
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

【原创】kafka consumer源代码分析

你可能感兴趣的:(kafka)