干饭的猪

kafka面试题知识点整理

kafka-面试题整理

刚刚学了kafka，整理一些面试题知识点，帮助记忆
- 1、什么是kafka
- 2、什么是消息队列
- 3、kafka通信流程
- 4、Leader选举流程
- 5、副本及同步原理
- 6、消费者消费数据的方式
- 7、分区分配策略以及原理
- 8、如何保证消息的可靠性
- 9、数据有序/乱序
- 10、幂等性原理
- 11、为什么kafka放弃zookeeper
- 12、kafka文件存储机制
- 13、产生数据积压，如何快速处理
- 14、硬件估算
- 15、kafka为什么比较快

刚刚学了kafka，整理一些面试题知识点，帮助记忆

本文是自己学习整理，以及参考其他博客，如有什么错误，欢迎指出，谢谢~~
kafka参数配置官方文档
其他博主博客

1、什么是kafka

传统定义： Kafka是一个分布式的基于发布/订阅模式的消息队列（MQ）,主要应用于大数据实时处理领域
最新定义： Kafka是一个开源平台的分布式事件流平台（Event Streaming Platform），大部分公司应用于数据管道、流分析、数据集成和关键任务应用
注：相关概念
- 注册中心zookeeper（非kafka内部），2.8.0后kafka版本抛弃了zookeeper
- Producer： 消息生产者，向kafka集群写入数据
- Consumer： 消息消费者，获取kafka集群数据
- Consumer Group： 消费者组，由多个consumer组成；消费者组内每个消费者消费不同分区数据，1个分区只能由1个组内的1个消费者消费；消费者之间互不影响；消费者组是逻辑上的一个订阅者
- Broker： kafka一台服务器就是1个Broker，1个集群由多个broker组成；1个borker中容纳多个topic
- Topic： 消息主题，将消息进行分类，可以理解为1个队列
- Partition： 为了实现扩展性，1个topic可以分为多个partition，每个partition都是一个有序队列
- Replica： 副本，1个topic的每个分区都有若干副本，一个leader和若干follower
- Leader： 多个分区中有1个为主副本，即leader，生产者和消费者交流数据的对象，其余均为follower
- Follower： 多个分区除了Leader外的其余副本，会实时从leader中同步数据，保持于leader数据的同步，Leader发生故障市，Follower会选举成为新的Leader，leader不对外服务
- Coordinator： 协调者，为了消费者组分配分区以及冲平衡Rebalance操作

2、什么是消息队列

目前主流消息队列有Kafka、ActiveMQ、RabbitMQ、RocketMQ; 大数据场景多采用kafka,JavaEE多采用其余三种

1）、应用场景

缓存/削峰： 控制和优化数据流经过系统的速度，解决生产者和消费者消息处理不一致问题；缓解流量洪峰时服务器压力
解耦： 通过遵循同样的接口约束，允许两边不同系统独立地扩展和修改内部逻辑
异步通信： 允许用户将一个消息放入队列，并不立即进行处理，在需要地时候再去处理

2）、模式

点对点模式： 消费者主动拉取数据，收到后清除消息
发布/订阅模式：
- 可以有多个topic主题
- 消费者消费数据后，不删除数据
- 每个消费者相互独立，都可以消费到数据

3）、kafka通过Consumer Group同时支持两种模式，所有的消费者在一个组内，消息只能被同一个Group内的一个消费者消费，就是点对点模式；如果组内仅有一个消费者，就是发布/订阅模式

3、kafka通信流程

1、kafka集群启动后，通过server.properties配置参数自动注册到zookeeper，再分目录下创建kafka目录，同时订阅zookeeper的brokers/ids路径，保存所有的broker信息
生产者启动通过bootstrap.servers连接到指定的broker上（代码开发过程中bootstrap.servers要使用域名，ip可能连接不上），创建tcp连接
和所有的broker创建连接
然后生产者者开始发送数据到kafak集群
消费者和生产者一样连接上broker
获取到broker的元数据，根据分区Leader节点所在的broker节点，和broker创建连接
开始消费数据

4、Leader选举流程

前提： kafka集群中有1个broker的Controller会被选举为Controller Leader，负责管理集群broker的上下线、所有topic的分区副本和Leader选举工作，Controller的信息同步工作依赖zookeeper
流程： 当不存在Leader或者Leader挂掉了，会按照在ISR中存活为前提，在AR中排在前面的优先的规则进行选取Leader
eg： ar:[1,0,2], isr:[1,0,2],那么Leader会按照1，0，2的顺序进行轮询
注：2.8.0以前，Leader信息记录在zk，之后采用kraft版本就不再需要zk，记录在kafka内部

5、副本及同步原理

副本同步是Follower从Leader同步数据，作为冗余灾备使用，不对外，默认1个，生产上基本>=2个，Leader负责对外提供服务。

AR： Assigned Replicas，所有副本集合
ISR： 和Leader保持同步的副本，默认同步时间（replica.lag.time.max.ms）默认10s，Leader和Follower时差10s内就可以认为是同步
LEO（Log End Offset）： 下一条待写入消息的位移（见下图）
HW（High Watermark）： 高水位（复制点），所有副本中最小的LEO（见下图）
同步过程：
- 1、当Leader中没有数据可同步，则Follower阻塞；Leader收到消费者的数据后解除Follower阻塞，Follower开始同步数据；每次发送fetch请求拉取数据。
- 2、HW计算：当前broker1同步到5，broker2同步到7，HW=min(LEO_Broder0，LEO_Broder1， LEO_Broder2)= 5;
Leader故障处理：
- Leader故障后会从ISR中选出一个新的Leader
- 为保证多个副本之间数据的一致性，其余的Follower会先将各自log中高于HW的部分截掉，然后从新的Leader同步数据
- 注：这只能保证副本之间的数据一致性，不保证数据不丢失或者不重复
Follower故障处理：
- 故障的Follower会临时踢出ISR
- 期间Leader和其他Follower继续接收同步数据
- 待该Follower恢复后，会读取本地磁盘记录的上次HW，并将log文件高于HW的部分截取掉，从HW开始向Leader进行同步数据
- 等该LEO_Follower>=HW_Leader，既追上了Leader，就可以重新加入ISR

6、消费者消费数据的方式

kafka中consumer采用的是poll（拉取）模式，没有采用pull（推送模式）,是因为由broker决定消息发送速率很难适应所有的消费者消费速率；poll模式的不足之处在于如果broker中没有数据，消费者会陷入空循环

7、分区分配策略以及原理

4种策略：Range，RoundRobin，Sticky，CooperativeSticky(3.0以后版本)
默认策略： Range + CooperativeSticky，可以通过partition.assignment.strategy参数进行调整，同时可以使用多种策略
再平衡：
- 每个消费者都会和coordinator保持心跳（默认3s），一旦超时（session.timeout.ms=45s），该消费者就会被移除，触发再平衡；或者消费者处理消息时间过长（max.poll.interval.ms=5mins），也会触发再平衡
- 一般极力避免再平衡，再平衡过程中会停止对数据的消费，造成数据积压
Range：

如上图所示，range分区尽可能保证分区均匀，通过Count_partitions/Count_consumer来决定每个消费者应该消费几个分区，如果除不尽，排在前面的消费者就会多消费分区
- 注：如果只有一个topic，按照上面的场景consumer-0多消费一个没问题，如果是N个topic，并且每一个topic分区和上面一样，那么consumer-0就会多消费N个partition，容易产生数据倾斜
RoundRobin：
- RoundRobin针对集群种所有的partition和consumer都列出来，然后按照hashcode进行排序，最后通过轮询算法分配partition到各个消费者
Sitcky：
- 顾名思义，粘性分区就是再进行新一次分配前，考虑上一次的分配结果，尽量少的调整分配的变动，可以节省大量的开销
- 自kafak 0.11.x版本引入，首先会尽量均匀地方式分区到消费者上，再出现同一组消费者组内消费者出现问题的时候，会尽量保持原有分配地分区不变化
CooperativeSticky：
- 合作者粘性保持Sticky的逻辑之外，同时允许合作者再平衡

8、如何保证消息的可靠性

生产者
- acks应答级别
  - 0：生产者发送数据到集群后就结束，可靠性差，效率高；生产上基本不使用
  - 1：生产者发送数据到集群后Leader应答，可靠性中等，效率中等，多用在日志的传输上，允许一定的丢失
  - -1(all)： 生产者发送数据到集群后，Leader和ISR队列里面所有的Follower应答，可靠性高，效率低，多用在关键数据、对可靠性要求比较高的场景
- 消息失败重试
  - retries： 此参数让生产者发送消息失败后不停重试，默认是INT_MAX，如果设置了重试还想保证消息的有序性，需要设置MAX_IN_FLIGHT_REQUESTRS_PER_CONNECTION=1，否则再重试此失败消息的时候，可能有其他消息发送成功了
消费者
- 关闭自动提交位移，修改业务处理成功手动提交即可使得消息丢失
- 消费者再平衡的时候，会读取上次提交的偏移量，默认是5s，会导致重复消费或者丢失消息
- enable.auto.commit=false设置为手动提交
注：数据完全可靠条件： ACK级别设置为-1 + 分区副本>=2 + ISR里应答的最小副本数量>=2

9、数据有序/乱序

生产者发送过来的数据做到单分区内有序，多分区无序
1.x版本之前通过指定max.in.flight.requests.per.connection=1（不需要考虑是否开启幂等性）
1.x版本之后未开启幂等性，需要设置max.in.flight.requests.per.connection=1；开启幂等性后，max.in.flight.requests.per.connection<=5(启用幂等后，kafka服务端会缓存producer发来的最近5个request的元数据，无论如何，都可以保证近5个request的数据都是有序的，通过幂等性里面的SeqNumber判断有序)

10、幂等性原理

幂等性： Producer不论向Broker发送多少次重复数据，Broker都只会持久化1条，保证了不重复（仅保证单分区会话内不重复）
精确一次： 幂等性 +至少一次（ACK=-1 + 分区副本数>=2 + ISR最小副本数量>= 2）
重复数据判断标准： 具有相同主键消息提交时,Broker只会持久化一条，PID是kafka进程号，Partition标识分区号，Sequence Number单调自增
开启条件： 通过参数enable.idempotence 开启，默认true

11、为什么kafka放弃zookeeper

从系统运维角度来说kafka本身是一个分布式系统，其自身运维已经十分复杂；同时依赖zookeeper，增加运维成本
对于kafka自身的发展而言，过度依赖外部系统不利于自身功能的完善与维护
在性能方面，offset、isr等信息保存在zookeeper中，zookeeper不适合高频的读写与更新操作，会影响其性能，新版本的kafka已经将提交和保存用消息的方式进行存储
zookeeper已经成为kafka的瓶颈

12、kafka文件存储机制

1、Topic是逻辑上的概念，Partition是物理上的概念，每个Partition对应一个log文件（即生产数据）。Partition产生的数据会被追加到log文件末尾（顺序写入）。
2、为了防止log过大导致数据定位效率低下，kafka采用分片和索引机制，将每个Partition分割成多个Segement，每个Segement包括“.index”文件，“.log”文件和“.timeindex”等文件，统一位于topic+分区编号目录下
- 注：index和log文件以当前segement的第一条消息的offset命名
3、Log&Index：
- index为稀疏索引 ，大约每往log写入4kb数据，往index写入一条索引，参数log.index.interval.bytes默认4kb
- index文件中保存offset为相对offset，这样确保offset的值占用空间不会过大，因此将offset的值控制在固定大小（真实offset=文件名数据+文件内offset）
4、文件清理策略
- 清理周期： 默认日志保存时间为7天，还可以设置清理间隔为分钟、毫秒，优先级：小时<分钟<毫秒；检查周期默认5mins
- delete策略：
  - 基于时间：默认打开，以segement中所有记录的最大时间戳作为文件的时间戳
  - 基于大小：默认关闭，超过设置日志总大小，删除最早的segement
- compat策略：
  - 日志压缩：对相同key的不同value，保留最后一个版本
  - 压缩后offset可能不连续
  - 此策略适合场景：消息key是用户ID，value是用户资料，通过这种策略，保存的用户数据一直是最新数据

13、产生数据积压，如何快速处理

1、增加分区Partitions数，一般不能大于kafka的broker数；如果大于，会出现无法消费数据的情况
2、提高消费者的速度，增大每次拉取的缓冲区数据的最大值（batch.size），或者加大每次拉取的数据条数
3、调整生产者的参数，适当增加缓冲区一批数据的大小（batch.size）；增大延迟时间（linger.ms），默认0ms，标识没有延迟，生产环境建议5-100ms；压缩生产者发送的数据（compression.type），默认none(不压缩)，支持压缩类型gzip，snappy，lz4，zstd（压缩比高的压缩时间长，压缩比低的效果不明显）

14、硬件估算

服务器台数=2*（生产者分支生产率 * 副本/100） +1
cpu数量：
- num.io.thread：写磁盘线程，占总核数50%
- num.replica.fetchers：副本拉取线程数，占总核数50%的1/3
- num.network.threads：数据传输线程，占总核数50%的2/3

15、kafka为什么比较快

高效读写数据

分布式集群： kafka本身是分布式集群，可采用分区技术，并行度高
稀疏索引： 读数据采用稀疏索引，能够快速定位到要消费的数据
顺序IO： kafka写数据到分区采用追加的方式（顺序写入），所以这个速度非常快；物理上采用磁盘和固态硬盘区别不大；官网数据：顺序读写600M/s,随机只有100K/s
零拷贝和页缓存： kafka在写入消息的时候通过mmap内存映射的方式，上层有写操作的时候，操作系统只将数据写入pageCache，发生读操作时，先从pageCache查找，找不到再去磁盘查找，实际上pageCache尽可能多的将空闲内存作为磁盘缓存使用； kafka的数据加工由生产者和消费者处理，broker应用不关心存储数据，所以数据不走应用层，通过sendfile实现零拷贝，将数据直接发送到consumer
批处理和压缩： kafka在发送和消费消息的时候，是一批一批处理数据；且可对消息进行压缩，缩小消息体积，可以一次性传输更多消息

docker创建的mysql没有配置文件_使用docker安装mysql, redis, kafka等各类服务 Gyrolt
前言大致说来,docker的作用如下绝大部分应用，开发者都可以通过dockerbuild创建镜像，通过dockerpush上传镜像，用户通过dockerpull下载镜像，用dockerrun运行应用。用户不需要再去关心如何搭建环境，如何安装，如何解决不同发行版的库冲突——而且通常不会需要消耗更多的硬件资源，不会明显降低性能。也就是实现了标准化、集装箱如果想要简单使用,可以看答主的这一片文章:番茄番
mysql的数据如何进kafka_MySQL数据实时增量同步到Kafka IT巫师
一、go-mysql-transfergo-mysql-transfer是一款MySQL实时、增量数据同步工具。能够实时解析MySQL二进制日志binlog，并生成指定格式的消息，同步到接收端。go-mysql-transfer具有如下特点：1、不依赖其它组件，一键部署2、集成多种接收端，如：Redis、MongoDB、Elasticsearch、RabbitMQ、Kafka、RocketMQ，不
【Docker系列四】Docker 网络 Kwan的解忧杂货铺@新空间代码工作室 s4 Docker系列 docker 网络容器
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
深入解析Flink Kafka Connector的分布式流数据采集架构与底层实现数据与算法架构提升之路 #Flink flink kafka conector 源码
目录1.FlinkKafka连接器的分布式流采集架构1.1架构组成1.2分布式流模型2.数据分区分配策略3.为什么重写序列化和偏移量管理3.1与Flink分布式架构集成3.2与Flink检查点机制集成同时承接多级并行架构3.3OffsetsInitializer与细粒度偏移量控制3.4与Flink的Source接口统一4.版本兼容性管理5.有界流处理支持5.1实现原理5.2API使用示例5.3多种
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
C# 如何给kafka消息配置优先级按序消费躺着发呆 C#大数据 kafka c#分布式开发语言
顾名思义kafka消息主题是没有优先级的配置，没办法配置消费顺序的，所有我们需要想办法给kafka消息配置消费顺序，如何做呢？下面我给大家举个简单优先级事例，比如高中低三个顺序消费消息首先要定义三个消息主题，分别是高、中、低是哪个主题，英文分别是high、medium、low这个时候他们还是没有先后消费的本领，下面需要我们赋予他们这个顺序级别思路如下消费顺序，高》中》低，高和中都是可以插队来进行消
java队列实现限流_如何使用队列实现微服务限流算法？纽太普 java队列实现限流
队列在平时开发中可能是出现频率最高的数据结构之一了，但是大部分情况下，我们都是用别人已经实现好的，比如kafka，比如redis里的list，以至于让人怀疑为什么还要去学习队列呢？希望今天的内容可以给你一些启发。什么是队列为了整个文章的完整性，我们还是来介绍一下什么是队列。我们举个生活中常见的案例，假设你在周杰伦的奶茶店买奶茶，由于人很多，为了保持公平和秩序，你被要求排队，最先来的人排到最前面，这
Java面试宝典，kafka优先级队列 m0_57081324 程序员 java 经验分享面试
为什么要分库分表？首先回答一下为什么要分库分表，答案很简单：数据库出现性能瓶颈。用大白话来说就是数据库快扛不住了。数据库出现性能瓶颈，对外表现有几个方面：大量请求阻塞在高并发场景下，大量请求都需要操作数据库，导致连接数不够了，请求处于阻塞状态。SQL操作变慢如果数据库中存在一张上亿数据量的表，一条SQL没有命中索引会全表扫描，这个查询耗时会非常久。存储出现问题业务量剧增，单库数据量越来越大，给存储
Kafka扩分区和分区副本重分配之后消费组会自动均衡吗？石臻臻的杂货铺 Kafka kafka 消费者
作者：石臻臻,CSDN博客之星Top5、KafkaContributor、nacosContributor、华为云MVP,腾讯云TVP,滴滴Kafka技术专家、KnowStreamingPMC)。KnowStreaming是滴滴开源的Kafka运维管控平台,有兴趣一起参与参与开发的同学,但是怕自己能力不够的同学,可以联系我,带你一起你参与开源！。KnowStreaming体验环境请访问：
Azure Delta Lake、Databricks和Event Hubs实现实时欺诈检测 weixin_30777913 azure 云计算
设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks，结合AzureEventHubs/Kafka摄入实时数据，通过DeltaLake实现Exactly-Once语义，实时欺诈检测（流数据写入DeltaLake，批处理模型实时更新），以及具体实现的详细步骤和关键PySpark代码。完整实现代码需要根据具体数据格式和业务规则进行调整，建议通过DatabricksR
springboot使用kafka自定义JSON序列化器和反序列化器 zhou_zhao_xu Kafka spring
1.序列化器packagecom.springboot.kafkademo.serialization;importcom.alibaba.fastjson.JSON;importcom.alibaba.fastjson.JSONObject;importorg.apache.kafka.common.serialization.Serializer;importjava.util.Map;/**
自定义kafka高效的protoStuff序列化 _夜渐凉 ●Java kafka protoStuff 序列化
Duang，最近搭建了一个自己的博客小破站，欢迎各位小伙伴来访吖：https://www.ares-stack.cn/blog_service/#/game目前序列化领域中，谷歌的protobuf应该是性能好，效率高的了，并且protobuf支持多种语言，可跨平台，跨语言但使用起来并不像其他序列化那么简单（首先要写.proto文件，然后编译.proto文件，生成对应的.java文件）protost
Kafka常见问题 C18298182575 kafka linq 分布式
Kafka集群，常见MQ面试问题Kafka集群，常见MQ问题Kafka名词介绍•Topic:消息队列，生产者和消费者面向的都是一个Topic•Broker:一个Kafka服务器就是一个Broker，一个集群由多个Broker组成。一个Broker可以容纳多个Topic•Producer:消息生产者，向KafkaBroker发生消息的客户端•Consumer:消息消费者，向KafkaBroker取消
kafka生产消息失败 ...has passed since batch creation plus linger time Lichenpar #记录BUG解决 kafka 网络安全 java
背景：公司要使用华为云的kafka服务，我负责进行技术预研，后期要封装kafka组件。从华为云下载了demo，完全按照开发者文档来进行配置文件配置，但是会报以下错误。org.apache.kafka.common.errors.TimeoutException:Expiring10record(s)fortopic-0:30015mshaspassedsincebatchcreationplusl
Spring系列学习之Spring Messaging消息支持 m0_74825488 面试学习路线阿里巴巴 spring linq java
英文原文：https://docs.spring.io/spring-boot/docs/current/reference/html/boot-features-messaging.html目录JMSActiveMQ支持Artemis支持使用JNDIConnectionFactory发送消息接收消息AMQPRabbitMQ支持发送消息接收消息ApacheKafka支持发送消息接收消息Kafka流
Spring Boot 集成 Kafka 消息发送方案 weixin_43833540 spring boot kafka
一、引言在SpringBoot项目中，Kafka是常用的消息队列，可实现高效的消息传递。本文介绍三种在SpringBoot中使用Kafka发送消息的方式，分析各自优缺点，并给出对应的pom.xml依赖。二、依赖引入在pom.xml中添加以下依赖：org.springframework.kafkaspring-kafka3.0.8org.jsonjson20231013若要进行测试，可添加sprin
Kafka 的消息压缩机制：优化存储与传输的利器阿贾克斯的黎明 java linq c#java
目录Kafka的消息压缩机制：优化存储与传输的利器一、消息压缩机制的重要意义1.减少存储成本2.提升网络传输效率二、Kafka常用的消息压缩算法1.GZIP压缩2.Snappy压缩3.前端展示压缩状态（Vue3+TS）在消息中间件的大家族中，Kafka以其卓越的性能而备受瞩目。其中，Kafka的消息压缩机制是一项非常重要的特性，它就像是一个高效的“压缩包”，在不损失数据内容的前提下，有效减少数据的
kafka 的 message 包括哪些信息 weixin-80213251 javaweb java kafka hadoop
一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候，会在magic和crc32之间多一个字节的数据：attributes(保存一些相关属性，比如是否压缩、压缩格式等等)；如果magic的值为0，那么不存在attributes
Kafka跨集群数据备份与同步：MirrorMaker运用磐基Stack专业服务团队 Kafka kafka 分布式
#作者：张桐瑞文章目录前言MirrorMaker是什么运行MirrorMaker各个参数的含义前言在大多数情况下，我们会部署一套Kafka集群来支撑业务需求。但在某些特定场景下，可能需要同时运行多个Kafka集群。比如，为了实现灾难恢复，你可以在不同机房分别部署独立的Kafka集群。如果一个机房发生故障，你可以快速切换流量到另一个正常运行的机房。另外，如果你希望为地理上较近的客户提供低延迟的消息服
【大模型系列】SFT（Supervised Fine-Tuning，监督微调） Kwan的解忧杂货铺@新空间代码工作室 s2 AIGC 大模型
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
深入理解 Kafka 的 ConsumerRebalanceListener t0_54coder 编程问题解决手册 kafka linq 分布式
深入理解Kafka的ConsumerRebalanceListener在分布式系统中，数据的一致性和可靠性是至关重要的。ApacheKafka作为一个流行的分布式流处理平台，提供了强大的数据传输和处理能力。在Kafka中，消费者组（ConsumerGroup）的概念允许多个消费者实例共同处理一个主题的数据。然而，当消费者实例的个数发生变化时，如何确保数据的平衡和一致性呢？这就引出了我们今天要讨论的
如何解决Kafka Rebalance引起的重复消费 maozexijr kafka linq 分布式
在Kafka中，Rebalance（再平衡）是消费者组（ConsumerGroup）动态调整分区分配的过程。当消费者组中的成员发生变化（例如消费者加入或退出）、订阅的Topic分区数量变化、或者消费者长时间未发送心跳时，都会触发Rebalance。虽然Rebalance有助于负载均衡和容错，但它也可能导致重复消费的问题。以下是一些解决因Rebalance引起的重复消费问题的方法：1.禁用自动提交O
Kafka深度解析 GarfieldEr007 Kafka/MQ Kafka 深度解析 MQ
原创文章，转载请务必将下面这段话置于文章开头处（保留超链接）。本文转发自Jason’sBlog，原文链接http://www.jasongj.com/2015/01/02/Kafka深度解析背景介绍Kafka简介Kafka是一种分布式的，基于发布/订阅的消息系统。主要设计目标如下：以时间复杂度为O(1)的方式提供消息持久化能力，即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价
关于kafka常见的问题小结 BAStriver #Kafka 中间件 kafka 分布式
目录1.Kafka怎么避免重复消费1.1什么时候出现重复消费1.2如何处理重复消费问题2.Kafka怎么保证消息不丢失2.1Producer2.2Broker2.3Consumer3.Kafka怎么保证消息消费的顺序最近面试遇到一些常见kafka问题，所以做一下总结。1.Kafka怎么避免重复消费1.1什么时候出现重复消费1)Kafka的broker上存储的消息都有一个offset作为标记，然后K
【Kafka高级】Kafka性能优化与调优实践全栈追梦人 kafka 性能优化 linq
在大规模数据处理和实时消息传递场景中，Kafka的性能优化至关重要。本文将从生产者性能优化、消费者性能优化以及集群性能调优三个方面展开，结合实际代码示例和配置参数，帮助读者更好地理解和应用Kafka性能优化策略。一、生产者性能优化Kafka生产者的性能直接影响消息发送的效率和系统的吞吐量。以下是一些关键优化策略：1.1批量发送生产者会将消息批量发送到Kafka，减少网络请求次数。以下参数对批量发送
消息中间件：RabbitMQ、Kafka 和 Redis如何选择？一文让您了解！写bug如流水架构设计 rabbitmq kafka redis 中间件
RabbitMQ、Kafka和Redis是三种常见的消息中间件，它们各自具有不同的特点和适用的场景。以下是对它们使用场景及选择的分析：1.RabbitMQRabbitMQ是一个基于AMQP（AdvancedMessageQueuingProtocol）的消息队列系统，主要用于消息传递和任务分发，具有可靠的消息传递机制。使用场景：复杂的路由机制：RabbitMQ支持多种交换器类型（如fanout、d
Kafka Connect Node.js Connector 指南丁操余
KafkaConnectNode.jsConnector指南kafka-connectequivalenttokafka-connect:wrench:fornodejs:sparkles::turtle::rocket::sparkles:项目地址:https://gitcode.com/gh_mirrors/ka/kafka-connect项目介绍KafkaConnectNode.jsConn
消息中间件选型: kafka与rabbitmq的对比 HS_Henry 消息中间件 rabbitmq kafka 消息中间件选型
RabbitMQ总结_陈海龙的格物之路-CSDN博客https://blog.csdn.net/chl87783255/article/details/122606212kafka总结_陈海龙的格物之路-CSDN博客kafka，仅支持拉取的分布式流式平台。本文从简介、使用场景、设计、实现四个方面阐述kafka。https://blog.csdn.net/chl87783255/article/de
RabbitMQ 与 Kafka：消息中间件的终极对比与选型指南海上彼尚 node.js rabbitmq kafka 分布式 node.js
引言在分布式系统架构中，消息中间件是异步通信的核心组件。RabbitMQ和Kafka作为两大主流技术，常被开发者拿来比较。本文深入解析两者的设计哲学、性能差异和典型场景，助你做出精准技术选型。目录引言一、核心设计差异1.定位与数据模型二、性能与架构对比1.吞吐量与延迟2.集群与扩展三、功能特性对决1.消息可靠性2.消息路由四、典型场景与选型决策1.优先选择Kafka的场景2.优先选择RabbitM
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发