jeanheo

kafka设计和原理解析

文章目录

副本与ISR设计

follower 副本同步

基于水印备份复制

LEO更新机制
HW更新机制
缺陷

基于leader epoch

物理存储

分区分配
日志段文件
索引文件

位移索引文件
时间戳索引文件

日志留存
文件格式
log compaction(日志压实)

处理请求

元数据请求
生产请求
获取请求

控制器

控制器职责

更新集群元数据信息
创建topic
删除topic
分区重分配
preferred leader选举
topic分区拓展
broker加入/退出集群
受控关闭
controller leader选举

可靠性保证
参考

副本与ISR设计

对于特定的主题下的特定分区，可能存在多个副本，具体分为两类：

首领副本，每个分区有一个首领副本，所有生产者和消费者请求都会经过这个副本。首领需要确保跟随者和自己的状态是一致的。为了保持和首领同步，跟随者向首领发送获取数据的请求，会附带想要获取的消息的偏移量，这个偏移量表示消费者的消费进度。如果跟随者在10s内没有请求任何消息或者请求最新的数据，则会被认为是不同步的。
跟随者副本，跟随者不处理来自客户端的请求，只负责从首领复制消息，保持与首领一直的状态。如果首领发生崩溃，其中的一个和首领状态完全同步的跟随者会被提升为新首领。

分区首领是同步副本，而对于跟随者而言，需要满足以下条件才能被认为是同步的：

与Zookeeper保持一个活跃的会话，在过去配置时间内向Zookeeper发送心跳
在过去配置时间内从首领那里获取过消息
在过去配置时间内从首领那里获取过最新的消息。

一个滞后的同步副本会知道生产者和消费者变慢，因为生产者可能需要等待其同步，消费者需要确保都同步后才能收到标记为已提交的消息。

所有的同步副本信息维护在zookeeper的ISR中，每个topic分区都有自己的ISR列表。

follower 副本同步

基于水印备份复制

先看副本的各个位置信息：

起始位移(base offset):表示该副本当前所含第一条消息的offset
高水印值(high watermark，HW)保存该副本最新一条已提交消息的位移。确定了consumer能够获取的消息上限。超过HW的消息对消费者来说都是不可见的
日志末端位移(log end offset, LEO)：副本日志下一待写入消息的offset。所有副本的LEO信息可能会不一样。分区的HW即为所有副本中的最小的LEO。

LEO更新机制

对于leader端的LEO更新时机为每次写log的时候
对于follow端，会有两个副本LEO，分别存在leader和follow中，即leader存储了所有follow的LEO副本，基于这些副本来帮助leader更新HW。每次follow往leader拉取消息时，会同步更新leader端的follow LEO和follow端的LEO。

HW更新机制

对于follow，每次从leader拉取数据时，会比较当前LEO和leaderHW,取两者中的小值为新的HW。follow的HW值不会超过leader HW值
对于leader,有4中情况尝试更新，不满足条件则不更新：
1. 分区leader发生变化，此时leader副本会尝试更新HW
2. broker出现崩溃导致副本被踢出ISR时：若有broker崩溃，会检查是否波及当前分区
3. producer向leader副本写入消息时：会更新leader的LEO，会查看HW值是否需要更新
4. leader处理follower拉取请求时：会从底层的log读取数据，然后尝试更新HW值
满足更新尝试条件时，leader会找出所有的同步副本，比较所有的LEO,取其中的最小值为HW。其中同步副本满足以下两个条件之一：
1. 在ISR中
2. 副本LEO落后于leader LEO的时长不大于replica.lag.time.max.ms(默认为10s),主要处理特殊时期下刚好追上leader进度，但不在ISR的情况

缺陷

基于水印同步会引起两个问题：

数据丢失，基于以下图示来分析：

在开始时候，A.LEO=1,A.HW=0,B.HW=0,B.LEO=1。B向A发出拉取请求,此时A会更新自身HW=1（并通知生产者消费成功），B会尝试更新自身HW=min(A.HW=1,B.LEO=1)=1，但这个时候B故障重启，重启后会调整LEO=HW=0，导致HW未更新，而后A副本挂掉，B称为leader，导致了第一条消息丢失。
数据不一致/数据离散，基于以下图示分析：

开始A是leader,B是follow。消息情况如图所示，而后A、B挂掉，B称为leader，接收生产者消息3，但实际更新了自身的偏移wei位2，而后A恢复称为follow,此时从外部看A,B是同步的，但实际上A的第二条消息和B的第二条消息不是同一条消息，导致了数据不一致的情况。

基于leader epoch

在0.11.0.0版本后，kafka引入leader epoch替代HW，解决了水印备份复制机制的两个问题。

leader epoch实际为一对值(epoch,offset)。epoch表示leader的版本号，leader发生变化，则epoch+1。offset为epoch版本对应的leader写入第一条消息的偏移，假设存在两对值(0,0),(1,120)表示第一个leader从0开始写消息，共写了120调，第二个leader从120开始写消息。

每次副本重新成为leader会查询这部分缓存，后去对应leader版本的位移，以避免数据不一致和丢失的情况。

避免数据丢失：

避免数据不一致：

物理存储

分区分配

在配置Kafka时，通过log.dirs指定了存储分区的目录列表。在创建主题时，Kafka会决定如何在broker间分配分区。

假如有6个broker，创建一个包含10个分区的主题，并且复制系数时3，则每个分区有3个副本。在分配时有以下目标：

在broker间平均地分布分区副本，即确保每个broker可以分到5个副本
确保每个分区的每个副本分布在不同的broker
如果为broker指定了机架信息，呀哦尽可能把每个分区的副本分配到不同机架的broker上，以保证一个机架的不可用不会导致整体的分区不可用。

为分区和副本选好broker后，会将分区副本分配目录，规则是计算每个目录的分区数量，新的分区都会被创建到这个磁盘上。

对于每个分区日志，Kafka又会进一步细分成日志段文件(log segment file)。每个日志段文件又会有3个后缀文件对应包括.log为具体的消息日志段文件，.index/。timeindex为相应的索引文件

日志段文件

对于.log后缀的日志段文件，Kafka使用第一条消息记录对应的offset来命名该.log文件，放在 ${topic}-$ {分区号}下，Kafka使用20为标志偏移量，则第一个日志段文件为0000000000000000000.log每个日志段文件会有上线大小，到达后会初始化新的日志段文件和对应的索引文件，这个过程叫做日志切分(log rolling)。其中正在写入的分区日志段文件被成为激活日志段(active log segment) 。

索引文件

对于.index和.timeindex后缀文件，分别成为位移索引文件和时间戳文件。

位移索引文件按照位移顺序保存，可以帮助broker更快定位记录所在的物理文件位置。
时间戳索引文件按照时间戳顺序保存，根据给定的时间戳查找对应的位移信息。
kafka基于二分查找目标索引项，整体时间复杂度为O(lgN)

两类索引文件都是稀疏索引文件(sparse index file)，每个索引文件由若干条索引项(index entry)组成。Kafka不会对每条消息记录都保存对应的索引项，而是待写入若干条记录后才增加一个索引项。log.index.interval.bytes参数设置了这个间隔大小，默认4KB,即Kafka分区至少写入4KB数据后才仔索引文件增加一个索引项，因而本质上他们是稀疏的。

可以通过log.index.size.max.bytes配置每个索引文件的最大文件大小，默认为10MB。创建索引文件时，会预先分配10MB大小，在进行切分时，会裁剪到真实大小，故正在写入的索引文件大小为10MB，而已切分的索引文件往往小于10MB。

位移索引文件

位移索引文件的索引项格式如下所示：
每个索引项固定8字节物理空间，Kafka强制要求索引文件必须是索引项的整数倍，如果配置log.index.size.max.bytes=20,则该文件的大小为16。

索引项的具体内容包括相对位移和文件物理位置：

文件物理位置：记录某条消息相对文件起始的偏移字节数。
相对位移：索引项中相对位移记录的是和索引文件其实位移的差值(即索引文件名)，索引项中的位移都是生序排序的，以此来保证查找的性能。通过位移索引文件，broker可根据指定位移快速定位到记录的物理文件位置，或至少定位出离目标记录最近的低位文件位置。位移索引查找过程如下所示：

假如要查找位移为7000的消息先定位大小于7000的最大索引项(2650,1150100)而后从1150100字节开始顺序查找记录。

时间戳索引文件

时间戳索引文件的索引项格式如下所示：
每个索引项固定占用12字节的物理空间，同样的Kafka强制要求索引文件必须是索引项大小的整数倍。

索引项的具体内容包括8字节的时间戳和4字节的相对位移。查找过程是先根据时间戳找到最近的相对位移，再通过.index文件，通过相对位移找到实际的消息物理位置。

日志留存

Kafka存储的消息数据会有一个保留规则：

规定数据的保留时长
规定数据的保留数据量大小

默认情况下，一个分区的数据会被分成若干个片段，每个片段包含1GB或一周的数据，以较小的为准。在broker网分区写入数据时，如果达到片段上线，就关闭当前文件，打开新文件。当前写入的数据片段称为活跃片段，活跃片段永远不会被删除。

文件格式

kafka接收来自生产者的消息保存到文件，再使用零复制技术给消费者发送消息，期间消息格式不会发生变化，避免了对生产者已经压缩的消息进行解压和再压缩。

除了键值、偏移量外，消息还包含消息大小、校验和、消息格式版本号、压缩算法和时间戳。如果生产者发送压缩过的消息，则同一批次的消息会被压缩再一起，被当作“包装消息”发送，如下所示：

log compaction(日志压实)

log compaction确保kafka topic下每个分区的每条具有相同key的消息都至少保存最新value的消息，一个应用场景如用户修改了三次信息，发了三次消息，只需保留最新信息对应的消息，则可以以用户id为key,kafka会定期压实保留最新key的value。

具体实现原理：每个日志段会分为两部分：

干净的部分，之前没清理过，每个健保留最新的一条消息
污浊的部分，在清理之后写入的，未被清理过，具体又会分成两部分：
1. 可被清理的
2. 不可被清理的，通过配置log.cleaner.min.compaction.lag.ms，表示最新配置时间内的日志不会被请求

kafka如果启用了清理功能(log.cleaner.enabled=true且log.cleanup.policy=compact)。会在清理时初始化一个map,映射关系是键的散列值和消息的偏移量。在开始清理时，会从干净的片段读取消息，从前往后不断添加/覆盖，到最后，map存储的是所有键最新的偏移量。而后对照原来的片段，对旧值进行清理，如下所示：

处理请求

Kafka协议的所有请求和响应都具有统一的格式，即Size+Request/Response，其中Size是int32，表征请求或响应的长度。

请求可划分为请求头部和请求体，请求头部的结构是固定的，由以下4个字段组成：

api_key: 请求类型，int16整数
api_version: 请求版本，int16整数
correlation_id: 与响应关联的对应编号，方便用户调试和排错，int32整数
client_id，表示发出此请求的client ID，非空字符串。

响应同样包含响应头部和响应体。响应头部只有一个字段：

correlation_id：就是上面请求头部中的correlation_id，和请求建立关联关系

元数据请求

这个请求包含客户端感兴趣的主题列表，broker响应消息里指明了这些主题所包含的分区、每个分区都有哪些副本，以及哪个副本是首领。这个请求可以发送给任意broker,因为所有broker都缓存了这些信息。

客户端获取元数据后，会进行缓存，并时不时地刷新以获取最新数据。当生产者和消费者发送请求到指定的首领时，如果首领已经发生变化，则发送请求的客户端会收到一个“非分区首领”的错误响应，然后会尝试重发元数据请求，擦好姑娘是获取最新的元数据。

生产请求

包含首领副本的broker在收到生产请求，会做一些校验：

发送数据的用户是否有主题写入权限
acks值是否有效(0，1或all)
如果acks=all，是否有足够多的同步副本保证消息已经被安全写入

验证后，消息会被写入本地磁盘或本地文件系统缓存，而后判断如果acks为all，则会缓存请求，知道首领发现所有粉碎者副本都复制了消息，响应此阿辉返回给客户端

获取请求

消费者尝试获取消息，会指定主题、分区、消费的起始偏移量等，还会指定从一个分区里返回的最大数据，避免客户端内存不足。

首领节点在接受请求时，会校验请求是否有效，如指定的偏移量在分区是否存在。

Kafka采用零复制技术想客户端发送消息，Kafka直接把消息从文件（Linux文件系统缓存）里发送到网络通道，不经过任何中间缓冲区，以避免字节复制和管理内存缓冲区，获取更好的性能。

分区首领在将消息发送给客户端前，需要保证消息已经被写入所有同步副本。

控制器

控制器本身是一个broker,除此外还负责分区多副本的首领选举。集群里第一个启动的broker通过在Zookeeper里创建一个临时节点/controller让自己称为控制器，其他并发节点会创建失败。而后会在控制器节点创建一个监听器。

在控制器节点宕机后，会再次尝试注册让自己称为新的控制器。当新的控制器节点诞生后，会在zookeeper拿到一个数值更大的controller epoch。当其他broker知道当前的controller epoch后，如果收到较旧的epoch消息，就会忽略。控制器使用epoch来避免脑裂（指两个节点同时认为自己是当前的控制器）

控制器职责

控制器的职责包括：

更新集群元数据信息
创建topic
删除topic
分区再均衡
preferred leader副本玄虚
topic分区拓展
broker加入集群
broker崩溃
受控关闭
controller leader选举

更新集群元数据信息

客户端可以向任意一台broker发送元数据，随着集群的运行，元数据信息可能发生变化，controller负责监听变更的消息，封装成UpdateMetadataRequests请求发送给每个broker,以同步最新的集群元数据。

创建topic

controller会在ZooKeeper创建一个监听器，监听ZooKeeper节点/brokers/topics下节点的变更情况，当新主题创建后，/brokers/topics节点下新增一个znode。controller会为新建的topic的每个分区确定leader和IDR，然后更新集群的元数据信息。

删除topic

当Kafka触发删除topic操作时，会在ZooKeeper的/admin/delete_topics下新建一个znode。controller启动会创建一个监听器监听该路径下的子节点变更情况，一旦发现有新增节点，则开启删除topic逻辑，这会触发两个操作：

停止所有副本运行
删除所有副本的日志数据
完成后controller会移除/admin/delete_topics/<待删除topic>节点，表示topic删除操作完成。

分区重分配

通常由kafka集群管理员发起，对topic的所有分区重新分配副本所在broker位置，管理员需要手动指定分配方案并按指定格式写入ZooKeeper的/admin/reassign_partitions节点下。具体重分配流程为：

在ZooKeeper上创建/admin/reassign_partitions节点，存入分配方案。
controller监听到/admin/reassign_partitions节点变更，controller获取该列表。
对列表中的所有partition，controller会做如下操作：
1. 启动RAR-AR中的Replica，即新分配的Replica。（RAR = Reassigned Replicas， AR = Assigned Replicas）
2. 等待新的Replica与Leader同步
  　 3. 如果Leader不在RAR中，从RAR中选出新的Leader
  　　4. 停止并删除AR-RAR中的Replica，即不再需要的Replica
  　　5. 删除/admin/reassign_partitions节点

preferred leader选举

假如原来broker1为partition1的leader副本,broker3存在partion1的follow副本,partition2的leader副本，当broker1宕机后，partition1的leader会转移到broker2，这时会导致broker1闲置，broker2繁忙，造成资源分配不均，可以配置preferred leader副本，如partition1的prefered leader为broker1，则在broker1恢复后，会重新将partition1的leader副本转移回broker1。
这可以通过配置auto.leader.rebalance.enable=true实现，controller会定时调整preferred leader。然后再去/admin/preferred_replica_election写入数据，controller监听到会调整副本leader，再广播出去。

topic分区拓展

在新增分区后，会在/brokers/topics/节点下写入新的分区目录，controller会监听到分区变化，执行对应的分区创建任务(如选举leader和ISR)，之后会更新集群元数据信息。

broker加入/退出集群

新的broker加入/退出集群时，会在/broker/ids下创建,并写入broker信息或会话过期删除一个znode，controller会监听到配置变化，执行对应的broker启动/退出任务，之后更新集群元数据信息并广播。

受控关闭

broker通过脚本等方式被关闭时，会与controller建立RPC请求，同步堵塞等待controller响应，controller会在处理完必要的leader重选举和ISR收缩调整后，给broker发送响应，然后broker完成正常退出。

controller leader选举

当发生以下种情景，会触发controller重选举

关闭controller所在broker，或broker宕机崩溃
手动删除zk的/controller节点，或在ck的/controller节点下写入新的broker.id

所有broker会监听/controller节点，当节点发生变化时，所有broker会争抢创建该节点，并存储所在broker.id，创建成功的broker成为controller,同时会增加/controller_epoch节点的值。

当控制器发现一个broker离开节点（监听的zokeeper路径发生变化），且这个broker负责的分区恰好是首领分区，那么失去首领的分区需要一个新首领，控制器会遍历分区，并确定分区的新首领（简单来说就是分区副本列表的下一个副本）。然后向所有包含新首领或现有跟随者的broker发送请求，包括首领和追随者信息。

当控制器发现一个broker加入集群，会检查新broker的brokerId是否包含现有分区的副本。如果有，控制器就把变更通知发给新加入的broker和其他broker,新broker的副本从首领哪里复制消息

可靠性保证

kafka基于以下保证消息的可靠性：

保证分区消息的有序性，在同一个分区内，先生产投递的消息总是会被先消费
只有当消息被写入分区的所有副本时（但不一定是磁盘），才被认为是“已提交”的
消费者只能读取“已提交”消息
只要还有一个副本是活跃的，那么已经提交的消息就不会丢失

参考

Kafka设计解析：Replication工具
Kafka权威指南
Apache Kafka实战

Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
Kafka 基础与架构理解 StaticKing KAFKA kafka
目录前言Kafka基础概念消息队列简介：Kafka与传统消息队列（如RabbitMQ、ActiveMQ）的对比Kafka的组件Kafka的工作原理：消息的生产、分发、消费流程Kafka系统架构Kafka的分布式架构设计Leader-Follower机制与数据复制Log-basedStorage和持久化Broker间通信协议Zookeeper在Kafka中的角色总结前言Kafka是一个分布式的消息系
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
Docker安装Kafka和Kafka-Manager 阿靖哦
本文介绍如何通过Docker安装kafka与kafka界面管理界面一、拉取zookeeper由于kafka需要依赖于zookeeper，因此这里先运行zookeeper1、拉取镜像dockerpullwurstmeister/zookeeper2、启动dockerrun-d--namezookeeper-p2181:2181-eTZ="Asia/Shanghai"--restartalwayswu
主流行架构 rainbowcheng 架构架构
nexus，gitlab,svn,jenkins,sonar,docker，apollo，catteambition，axure，蓝湖，禅道,WCP；redis，kafka，es，zookeeper，dubbo，shardingjdbc，mysql，InfluxDB，Telegraf，Grafana，Nginx，xxl-job，Neo4j,NebulaGraph是一个高性能的,NOSQL图形数据库
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
分布式消息队列Kafka 叶域大数据分布式 kafka scala spark
分布式消息队列Kafka简介：Kafka是一个分布式消息队列系统，用于处理实时数据流。消息按照主题（Topic）进行分类存储，发送消息的实体称为Producer，接收消息的实体称为Consumer。Kafka集群由多个Kafka实例（Server）组成，每个实例称为Broker。主要用途：广泛应用于构建实时数据管道和流应用程序，适用于需要高吞吐量和低延迟的数据处理场景依赖：Kafka集群和消费者依
K8S学习之PV&&PVC david161
部署mysql之前我们需要先了解一个概念有状态服务。这是一种特殊的服务，简单的归纳下就是会产生需要持久化的数据，并且有很强的I/O需求，且重启需要依赖上次存储到磁盘的数据。如典型的mysql，kafka，zookeeper等等。在我们有比较优秀的商业存储的前提下，非常推荐使用有状态服务进行部署，计算和存储分离那是相当的爽的。在实际生产中如果没有这种存储，localPV也是不错的选择，当然local
Kafka系列之：kafka命令详细总结快乐骑行^_^ 日常分享专栏 Kafka Kafka系列 kafka命令详细总结
Kafka系列之：kafka命令详细总结一、添加和删除topic二、修改topic三、平衡领导者四、检查消费者位置五、管理消费者群体一、添加和删除topicbin/kafka-topics.sh--bootstrap-serverbroker_host:port--create--topicmy_topic_name\--partitions20--replication-factor3--con
搭建Kafka+zookeeper集群调度 krb___ kafka 分布式
前言硬件环境172.18.0.5kafkazk1Kafka+zookeeperKafkaBroker集群172.18.0.6kafkazk2Kafka+zookeeperKafkaBroker集群172.18.0.7kafkazk3Kafka+zookeeperKafkaBroker集群软件环境zookeeper3.5.9资源调度、写作Kafka2.8.0消息通信中间件安装JDK1.8安装搭建zo
Kafka和Pulsar深入解析 jasen91 大数据开发 kafka 分布式
Kafka多租户：单租户系统数据迁移：依赖MirrorMaker，需要额外维护。市场上也有ConfluentReplicator等供应商工具。分层存储：由供应商提供商业使用。组件依赖：KafkaRaft（KRaft）从Kafka2.8开始处于早期访问模式，允许Kafka在没有ZooKeeper的情况下工作。这对Kafka来说是一个显著的优势，因为它简化了Kafka的体系结构并降低了学习成本。云原生
Linux系统部署Kafka教学情书学长 linux 学习笔记 kafka
第一步：Zookeeper安装（准备工作）1、解压安装将安装包上传到/opt/software目录下，解压并修改名称tar-zxvfapache-zookeeper-3.5.7-bin.tar.gz-C/opt/module/mvapache-zookeeper-3.5.7-bin/zookeeper2、配置服务器编号1)在/opt/module/zookeeper-3.5.7/这个目录下创建zk
数仓开发之DWD层完整使用 (第五章) 小坏讲微服务数据仓库 hadoop scala kafka
数仓开发之DWD层完整使用一、流量域未精加工的事务事实表1、主要任务1）数据清洗（ETL）2）新老访客状态标记修复3）分流2、思路1）数据清洗（ETL）2）新老访客状态标记修复（1）前端埋点新老访客状态标记设置规则（2）新老访客状态标记修复思路3）利用侧输出流实现数据拆分（1）埋点日志结构分析（2）分流日志分类（3）分流思路3、图解4、代码1）在KafkaUtil工具类中补充getKafkaPro
Kafka 应用场景 zinuxer kafka 分布式
数据流处理：Kafka支持实时数据流处理，能够在数据流动时进行处理和分析，确保应用程序与最新信息保持同步！日志聚合：可以将来自不同来源的日志集中和聚合，简化应用程序的调试和监控！消息队列：Kafka充当高性能的消息队列，确保不同系统组件之间可靠且可扩展的通信！网络活动追踪：Kafka可以追踪网络活动，改进用户体验和推动业务增长！数据复制：Kafka允许在多个集群之间实现无缝数据复制，确保高可用性和
Kafka的ack机制香山上的麻雀
ack=0/1/-1的不同情况：0：producer不等待broker的ack，broker一接收到还没有写入磁盘就已经返回，当broker故障时有可能丢失数据；1：producer等待broker的ack，partition的leader落盘成功后返回ack，如果在follower同步成功之前leader故障，那么将会丢失数据；-1：producer等待broker的ack，partition的
Kafka 实战 - Kafka分区和副本机制理解用心去追梦 kafka 分布式
ApacheKafka的分区（Partition）和副本（Replica）机制是其核心架构和可靠性保证的关键组成部分。以下是对其理解的详细解释：分区（Partition）分区概念：在Kafka中，每个主题（Topic）可以被划分为多个分区。分区是一个有序的、不可变的消息序列。这意味着消息在分区中按生成顺序存储，每个消息都有一个唯一的偏移量（Offset）。目的：分区的主要目的是为了水平扩展和并行处
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
zookeeper+kafka消息队列部署 TBF610218 zookeeper kafka 分布式
消息队列的概念什么是消息队列消息是指在应用间传送的数据消息队列是一种应用间的通信方式解决方法，确保消息的可靠传递专门为消息做缓存的消息队列的特征存储将消息存储在某个类型的缓冲区中，指导目标进读取这些消息或者将其从消息队列中显示移除为止异步消息队列通过缓冲消息可以在应用程序当中公开一定程度的异步性，允许源进程发送消息并在队列当中累积消息，而且目标进程可以挑选消息并进行处理为什么需要消息队列解耦冗余扩
分布式中间件-几个常用的消息中间件问道飞鱼分布式技术分布式中间件
文章目录常见消息中间件1.RabbitMQ2.ApacheKafka3.RedisPub/Sub4.ActiveMQ5.AmazonSimpleNotificationService(SNS)和SimpleQueueService(SQS)6.RocketMQ差异总结消息协议1.AMQP(AdvancedMessageQueuingProtocol)2.STOMP(SimpleTextOrient
kafka php 教程,php 使用kafka weixin_39713841 kafka php 教程
准备工作gitclonehttps://github.com/edenhill/librdkafka.git./configuremakesudomakeinstall$gitclonehttps://github.com/arnaud-lb/php-rdkafka.git#生成configure文件$/Users/shiyibo/LNMP/php/bin/phpize#编译安装$./config
Kafka快速入门 G丶AEOM 速成学习区 kafka linq 分布式
讲一下什么是Kafka首先引入这样一个场景：A服务可以发送200qps（QueriesPerSecond，是指每秒查询率），而B服务可以处理100qps。很显然，B服务很可能会被A服务压垮掉。怎么为了保证B不被压垮的同时还能处理A消息，没有什么是不能通过一层中间件解决的，如果有，那就再加一层。开始很容易想到，可以在B服务中增加一个队列，其实就是个链表，B服务根据自己的消费能力，消费链表中的消息。每
【Python系列】异步任务的终止 Kwan的解忧杂货铺@新空间代码工作室 s2 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
老版本kafka查询topic消费情况(python查询) 代码是谁 kafka python 分布式
由于老版本的kafka缺少shell，导致无法通过命令直接进行查询，所以通过python代码，实现消费情况查询安装必须的包#pyhon2.5pipinstallkafka-python==1.4.7python脚本#!/usr/bin/envpythonimportsysfromkafkaimportKafkaConsumer,TopicPartitioniflen(sys.argv)!=2:pr
【Python系列】使用切片移动元素位置 Kwan的解忧杂货铺@新空间代码工作室 s2 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
字节架构师：来说说 Kafka 的消费者客户端详解，你都搞懂了吗？ 2401_84049200 程序员 kafka linq 分布式
点对点模式基于队列，类似于同一个消费者组中的数据，由生产者发送数据到分区，然后消费者拉取分区的消息进行消费，此时消息只能被同一个消费者组的消费者消费一次。发布订阅模式模式就是kafka中的分区消息可以被不同消费者组的消费者消费。这就是一对多的广播模式应用。当然，消费者组是一个逻辑的概念，通过客户端参数group.id来配置，默认值为空字符串。而消费者并不是逻辑的概念，它是真正消费数据的实体，可以是
Java Kafka生产者实现 stormsha Java web java kafka linq
欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐：「stormsha的主页」，「stormsha的知识库」持续学习，不断总结，共同进步，为了踏实，做好当下事儿~专栏导航Python系列:Python面试题合集，剑指大厂Git系列:Git操作技巧GO系列:记录博主学习GO语言的笔记，该笔记专栏
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d