YY_pdd

kafka常见面试题

kafka

1、kafka名词解释和工作

producer：消息生产者，就是向kafka broker发消息的客户端。
consumer：消息消费者，向kafka broker取消息的客户端。
topic：可以理解为一个队列。
consumer group（CG）：这是kafka用来实现一个topic消息的广播（发给所有人的consumer）和单播（发给任意一个consumer）的手段。一个topic可以有多个CG。topic的消息会复制（概念上的复制）到所有的CG，但每个partion只会把消息发给该CG中的一个consumer。如果需要实现广播，只要每个consumer有一个独立的CG就可以了。要实现单播只要所有的consumer在同一个CG。用CG还可以将consumer进行自由的分组而不需要多次发送消息到不同的topic。
broker：一台kafka服务器就是一个broker。一个集群由多个broker组成。一个broker可以容纳多个topic。
partition：为了实现扩展性，一个非常大的topic可以分布到多个broker（即服务器）上，一个topic可以分为多个partition，每个partition是一个有序的队列。partition中的每条消息都会被分配一个有序的id（offset）。kafka只保证按一个partition中的顺序将消息发给consumer，不保证一个topic的整体（多个partition间）的顺序。
offset：kafka的存储文件都是按照offset.kafka来命名，用offset做名字的好处是方便查找。例如想找位于2049的位置，只要找到2048.kafka的文件即可。当然the first offset就是00000000000.kafka。

2、consumer与topic的关系

本质上kafka只支持topic。

每个group中可以有多个consumer，每个consumer属于一个consumer group。

通常情况下，一个group中会包含多个consumer，这样不仅可以提高topic中消息的并发消费能力，而且还能提高“故障容错”性，如果group中的某个consumer失效，那么其消费的partitions将会有其他consumer自动接管。

对于topic中的一条特定的消息，只会被订阅此topic的每个group中的其中一个consumer消费，此消息不会发送给一个group的多个consumer。

那么一个group中所有的consumer将会交错的消费整个topic，每个group中consumer消费互相独立，我们可以认为一个group是一个订阅者。

在kafka中，一个partition中的消息只会被group中的一个consumer消费（同一时刻）；一个topic中的每个partitions，只会被一个“订阅者”中的一个consumer消费，不过一个consumer可以同时消费多个partitions中的消息。

kafka的设计原理决定，对一个topic，同一个group中不能由多于partitions个数的consumer同时消费，否则将意味着某些consumer将无法得到消息。

kafka只能保证一个partition中的消息被某个consumer消费时是顺序的；事实上，从topic角度来说，当有多个partions时，消息仍不是全局有序的。

3、kafka中生产数据的时候，如何保证写入的容错性。

设置发送数据是否需要服务端的反馈，有三个值：0、1、-1

0：producer不会等待broker发送ack。

1：当leader介绍到消息之后发送ack。

-1：当所有的follower都同步消息成功后发送ack。

三种机制，性能依次递减（producer吞吐量降低），数据健壮性则依次递增。

request.required.acks=0

4、如何保证kafka消费者消费数据是全局有序的。

伪命题

每个分区内，每条消息都有一个offset，故只能保证分区内有序。

如果要全局有序，必须保证生产有序，存储有序，消费有序。

由于生产可以做集群，存储可以分片，消费可以设置为一个consumer group，要保证全局有序，就需要保证每个环节都有序。

只有一个可能，就是一个生产者，一个partition，一个消费者。这种场景和大数据应用场景相悖。

5、分析广告投放对哪类用户更有效，如果数据是实时的呢，如何解决5分钟的误差

有两个数据源，一个记录的是广告投放给用户的日志，一个记录用户访问日志，另外还有一个固定的用户基础表记录用户基本信息（比如学历，年龄等等）。现在要分析广告投放对与哪类用户更有效，请采用熟悉的技术描述解决思路。另外如果两个数据源都是实时数据源（比如来自kafka），他们数据在时间上相差5分钟，需要哪些调整来解决实时分析问题？

可以使用flume+sqoop将数据源的数据拉取到hive中，统计广告投放用户的登陆数，对登陆数进行排名，分析排名分布，数据分布等等，如果不能简单判断，则可以按特征值分区统计登录数。如果有时间误差，可以根据时间戳进行时间分区（可能会至少有5分钟的延迟）。

6、kafka和sparkstreaming如何集成？

Receiver方式

Received是使用Kafka高级Consumer API实现的。与所有接收器一样，从Kafka通过Receiver接收的数据存储在Spark Executor的内存中，然后由Spark Streaming启动的job来处理数据。然而默认配置下，这种方式可能会因为底层的失败而丢失数据（请参阅接收器可靠性）。如果要启用高可靠机制，确保零数据丢失，要启用Spark Streaming的预写日志机制（Write Ahead Log，（已引入）在Spark 1.2）。该机制会同步地将接收到的Kafka数据保存到分布式文件系统（比如HDFS）上的预写日志中，以便底层节点在发生故障时也可以使用预写日志中的数据进行恢复。

Direct方式

在spark1.3之后，引入了Direct方式。不同于Receiver的方式，Direct方式没有receiver这一层，其会周期性的获取Kafka中每个topic的每个partition中的最新offsets，之后根据设定的maxRatePerPartition来处理每个batch。

这种方法相较于Receiver方式的优势在于：

简化的并行：在Receiver的方式中我们提到创建多个Receiver之后利用union来合并成一个Dstream的方式提高数据传输并行度。而在Direct方式中，Kafka中的partition与RDD中的partition是一一对应的并行读取Kafka数据，这种映射关系也更利于理解和优化。
高效：在Receiver的方式中，为了达到0数据丢失需要将数据存入Write Ahead Log中，这样在Kafka和日志中就保存了两份数据，浪费！而第二种方式不存在这个问题，只要我们Kafka的数据保留时间足够长，我们都能够从Kafka进行数据恢复。
精确一次：在Receiver的方式中，使用的是Kafka的高阶API接口从Zookeeper中获取offset值，这也是传统的从Kafka中读取数据的方式，但由于Spark Streaming消费的数据和Zookeeper中记录的offset不同步，这种方式偶尔会造成数据重复消费。而第二种方式，直接使用了简单的低阶Kafka API，Offsets则利用Spark Streaming的checkpoints进行记录，消除了这种不一致性。
请注意，此方法的一个缺点是它不会更新Zookeeper中的偏移量，因此基于Zookeeper的Kafka监视工具将不会显示进度。但是，您可以在每个批处理中访问此方法处理的偏移量，并自行更新Zookeeper。

7、列举kafka的优点，简述kafka为什么可以做到每秒数十万甚至上百万消息的高效分发？

优点

高吞吐量：每秒数十万、上百万的高效分发。

持久化数据存储：将消息持久化到磁盘，因此可以用于批量消费，防止数据丢失。

分布式系统易于扩展：所有的producer、broker和consumer都会有多个，均为分布式的。无需停机即可扩展机器。

客户端状态维护：消息被处理的状态是在consumer端维护，而不是由server端维护。但失败时能自动平衡。

高效率

虽然kafka会持久化所有数据到磁盘，当本质上每次写入操作其实都只是把数据写入到操作系统的页缓存，然后由操作系统自行决定什么时候把页缓存中的数据写回磁盘。

大量使用操作系统页缓存，内存操作速度快且命中率高。
Kafka 不直接参与物理 1/0 操作，而是交由最擅长此事的操作系统来完成。
采用追加写入方式，摒弃了缓慢的磁盘随机读／写操作。
使用以sendfile为代表的零拷贝技术加强网络间的数据传输率。

8、为什么离线分析要用kafka？

kafka的作用是解耦，如果直接从日志服务器上采集的话，实时离线都要采集，等于要采集两份数据，而使用了kafka的话，只需要从日志服务器上采集一份数据，然后再kafka中使用不同的两个组读取就行了。

9、kafka怎么进行监控

使用kafka manager进行监控

下载kafka-manager。

并修改配置文件conf/application.conf，编写服务启动脚本。

启动集群及kafka manager，访问webui进行相关管理。

10、kafka与传统的消息队列服务有什么不同

快速持久化，可以在O(1)的系统开销下进行消息持久化；

高吞吐，在一台普通的服务器上既可以达到10W/s的吞吐速率；

完全的分布式系统，Broker、Producer、Consumer都原生自动支持分布式，自动实现复杂均衡；

支持Hadoop数据并行加载，对于像Hadoop的一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka通过Hadoop的并行加载机制来统一了在线和离线的消息处理

11、kafka api low-level与high-level有什么区别，使用low-level需要处理那些细节

High Level Consumer

屏蔽细节管理。

屏蔽了每个Topic的每个Partition的Offset管理（自动读取zookeeper中该Consumer group的last offset ）。

Broker失败转移以及增减Partition、Consumer时的负载均衡(当Partition和Consumer增减时，Kafka自动进行负载均衡）。

对于多个Partition，多个Consumer。如果consumer比partition多，是浪费，因为kafka的设计是在一个partition上是不允许并发的，所以consumer数不要大于partition数，如果consumer比partition少，一个consumer会对应于多个partitions，这里主要合理分配consumer数和partition数，否则会导致partition里面的数据被取的不均匀。最好partiton数目是consumer数目的整数倍，所以partition数目很重要，比如取24，就很容易设定consumer数目。

如果consumer从多个partition读到数据，不保证数据间的顺序性，kafka只保证在一个partition上数据是有序的，但多个partition，根据你读的顺序会有不同。

增减consumer，broker，partition会导致rebalance，所以rebalance后consumer对应的partition会发生变化
High-level接口中获取不到数据的时候是会block的
关于Offset初始值的问题：
先produce一些数据，然后再用consumer读的话，需要加上一句offset读取设置

props.put("auto.offset.reset", "smallest"); //必须要加，如果要读旧数据  1

因为初始的offset默认是非法的，然后这个设置的意思是，当offset非法时，如何修正offset，默认是largest，即最新，所以不加这个配置，你是读不到你之前produce的数据的，而且这个时候你再加上smallest配置也没用了，因为此时offset是合法的，不会再被修正了，需要手工或用工具改重置offset。

Low Level API

细节需要自己处理。

控制灵活性，作为底层的Consumer API，提供了消费Kafka Message更大的控制，跳读，Exactly Once原语，提供更大灵活控制是以复杂性为代价的：Offset不再透明，Broker自动失败转移需要处理，增加Consumer、Partition、Broker需要自己做负载均衡，（Offset自己管理），如果一个Partition有多个副本，那么Lead Partition所在的Broker就称为这个Partition的Lead Broker。

12、kafka的ISR副本同步队列

ISR(In-Sync Replicas)副本同步队列。ISR中包括leader和follower。

ISR 中的副本都是与 Leader 同步的副本，相反，不在 ISR 中的追随者副本就被认为是与 Leader 不同步的。

Leader 副本天然就在 ISR 中。

**ISR 是一个动态调整的集合，而非静态不变的。**如果同步时间超过replica.lag.time.max.ms则被认为不是同步的，应该踢出该副本存入OSR（Outof-Sync Replicas），如果同步时间在replica.lag.time.max.ms之内，则应该加入队列。

默认只有在队列里面的（被认定是实时同步的follower副本）才可能被选举为leader。（这个原则可以通过修改对应的参数配置来改变）

13、kafka消息数据积压，kafka消费能力不足怎么处理？

如果是kafka消费能力不足，则可以考虑增加topic的分区数，并且同时提升消费组的消费者数量，消费者数=分区数。
如果是下游的数据处理不及时：提高每批次拉取的数量。批次拉取数据过少（拉取数据/处理时间<生产速度），使处理的数据小于生产的数据，也会造成数据积压。

14、kafka中的ISR、OSR、AR代表什么？

ISR（In-Sync Replicas）：所有与leader副本保持一定程度同步的副本（包括Leader）组成ISR，ISR集合是AR集合中的一个子集。

OSR(Out-Sync Relipcas)：与leader副本同步滞后过多的副本（不包括leader）副本，组成OSR。

AR（Assigned Repllicas）：分区的所有副本。AR=ISR+OSR

15、kafka中的HW、LEO等分别代表什么？

LEO（Log End Offset）：表示了当前日志文件中下一条待写入消息的offset。LEO的大小相当于当前日志分区中最后一条消息的offset值加1。

HW（High Watermak）：表示了一个特定消息的偏移量（offset），消费者只能拉取到这个offset之前的消息。分区ISR集合中的每个副本都会维护自身的LEO，而ISR集合中最小的LEO即为分区的HW，对消费者而言只能消费HW之前的消息。

ps：

同步复制要求所有能工作的Follower副本都复制完，这条消息才会被确认为成功提交，这种复制方式影响了性能。

在异步复制的情况下， follower副本异步地从leader副本中复制数据，数据只要被leader副本写入就被认为已经成功提交。如果follower副本都没有复制完而落后于leader副本，如果突然leader副本宕机，则会造成数据丢失。

kafka使用ISR有效权衡了数据可靠性与性能之间的关系。

16、哪些情景会造成消息漏消费

先提交offset，后消费，有可能造成数据的重复

17、当你使用kafka-topics.sh创建了一个topic之后，Kafka背后会执行什么逻辑？

在执行完脚本之后，Kafka 会在 log.dir 或 log.dirs 参数所配置的目录下创建相应的主题分区，默认情况下这个目录为/tmp/kafka-logs/。

在 ZooKeeper 的/brokers/topics/目录下创建一个同名的实节点，该节点中记录了该主题的分区副本分配方案。

触发Controller的监听程序

kafka Controller负责topic的创建工作，并更新metadata cache

18、topic的分区数可不可以增加？如果可以怎么增加？如果不可以，那又是为什么？

可以增加，使用 kafka-topics 脚本，结合 --alter 参数来增加某个主题的分区数，命令如下：

bin/kafka-topics.sh --bootstrap-server broker_host:port --alter --topic  --partitions <新分区数>

当分区数增加时，就会触发订阅该主题的所有 Group 开启 Rebalance。
首先，Rebalance 过程对 Consumer Group 消费过程有极大的影响。在 Rebalance 过程中，所有 Consumer 实例都会停止消费，等待 Rebalance 完成。这是 Rebalance 为人诟病的一个方面。

其次，目前 Rebalance 的设计是所有 Consumer 实例共同参与，全部重新分配所有分区。其实更高效的做法是尽量减少分配方案的变动。
最后，Rebalance 实在是太慢了。

19、topic的分区数可不可以减少？如果可以怎么减少？如果不可以，那又是为什么？

不支持，因为删除的分区中的消息不好处理。

如果直接存储到现有分区的尾部，消息的时间戳就不会递增，如此对于 Spark、Flink 这类需要消息时间戳（事件时间）的组件将会受到影响；如果分散插入现有的分区，那么在消息量很大的时候，内部的数据复制会占用很大的资源，而且在复制期间，此主题的可用性又如何得到保障？与此同时，顺序性问题、事务性问题，以及分区和副本的状态机切换问题都是不得不面对的。

20、Kafka有内部的topic吗？如果有是什么？有什么所用？

有，__consumer_offsets,保存消费者offset

21、聊一聊Kafka Controller的作用？

controller主要依靠ZK完成对集群broker和分区的管理如集群broker信息、分区选举ISR等。

选举Leader和ISR
同步元数据信息包括broker和分区的元数据信息
broker增删监听与处理
topic变化监听与处理
分区变化监听与变化处理
broker优雅退出

22、失效副本是指什么？有那些应对措施？

不能及时与leader同步，暂时踢出ISR，并加入OSR，等其追上leader之后再重新加入ISR。

23、kafka都有那些特点

高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒，每个topic可以分多个partition，consumer group对partition进行consume操作。

可扩展性：kafka集群支持热扩展

持久性、可靠性：消息被持久化到本地磁盘，并且支持数据备份防止数据丢失

容错性：允许集群中节点失败（若副本数量为n，则允许n-1个节点失败）。

高并发：支持数千个客户端同时读写。

24、请简述下你在那些场景下会选择kafka？

日志收集：一个公司可以用kafka收集各种服务的log，通过kafka以统一接口服务的方式开放给各种consumer，例如hadoop、hbase、spark等。
消息系统：解耦生产者和消费者、缓存消息等。
用户活动跟踪：kafka经常被用来记录web用户或者app用户的各种活动，如浏览网页、搜索、点击等活动，这些活动信息被各个服务器发布到kafka的topic中，然后订阅者通过订阅这些topic来做实时的监控分析，或者转载到hadoop、数据仓库中做离线分析和挖掘。
运营指标：kafka而经常被用来记录运营监控数据。包括收集各种分布式应用的数据，生产各种操作的集中反馈，比如报警和报告。
流式处理：比如spark streaming和flink。

25、kafka的设计架构你知道吗？

Producer ：消息生产者，就是向 kafka broker 发消息的客户端。
Consumer ：消息消费者，向 kafka broker 取消息的客户端。
Topic ：可以理解为一个队列，一个 Topic 又分为一个或多个分区。
Consumer Group：这是 kafka 用来实现一个 topic 消息的广播（发给所有的 consumer）和单播（发给任意一个 consumer）的手段。一个 topic 可以有多个 Consumer Group。
Broker ：一台 kafka 服务器就是一个 broker。一个集群由多个 broker 组成。一个 broker 可以容纳多个 topic。
Partition：为了实现扩展性，一个非常大的 topic 可以分布到多个 broker上，每个 partition 是一个有序的队列。partition 中的每条消息都会被分配一个有序的id（offset）。将消息发给 consumer，kafka 只保证按一个 partition 中的消息的顺序，不保证一个 topic 的整体（多个 partition 间）的顺序。
Offset：kafka 的存储文件都是按照 offset.kafka 来命名，用 offset 做名字的好处是方便查找。例如你想找位于 2049 的位置，只要找到 2048.kafka 的文件即可。当然 the first offset 就是 00000000000.kafka。

26、kafka分区的目的？

分区对于kafka集群的好处：实现负载均衡。

分区对于消费者来说，可以提高并发度，提高效率。

producer可以将数据发送给多个broker上的多个partition，consumer也可以并行从多个broker上的不同paritition上读数据，实现了水平扩展。

由于消息是以追加的形式添加到到分区中的，多个分区顺序写磁盘的总效率比随机写内存还要高

27、你知道kafka是如何做到消息的有序性？

kafka中的每个partition中的消息在写入时都是有序的，而且消息带有offset偏移量，消费者按偏移量的顺序从前往后消费，从而保证了消息的顺序性。

但是分区之间的消息是不保证有序的。

28、kafka的高可靠性是怎么实现的？

kafka通过分区的多副本机制来保证消息的可靠性。

每个分区可以设置多个副本，这些副本分布在不同的broker上；
相同partition的多个副本能动态选举leader来对外服务和管理内部数据同步。这样，即使有broker出现故障，受影响的partition也会在其它broker上重新选举出新的leader来继续服务。

29、请谈一谈kafka数据一致性原理

一致性就是说不论是老的 Leader 还是新选举的 Leader，Consumer 都能读到一样的数据。

所有在ISR中的副本都有个LEO（log end offset）偏移量，leader副本插入数据时，leaderLEO会增加，副本会复制leader新的数据，副本LEO也会增加，副本LEO不一样。

把ISR中的所有副本的最小LEO称为HW（high water mark），只有HW之前的数据才能被consumer消费。

producer端：

需要设置ack=all，如果发生leader出了问题，只有所有副本复制完成，producer才能写入成功，否则生产者会考虑重发消息。

consumer端：

因为consumer只能拉取HW之前的数据即ISR中所有副本都有的数据，所以如果此时发生leader选举，consumer不会拉取错误的数据，而是等到leader选举完成，HW发生变化，consumer才能重新消费。

使用HW这种模式兼顾了安全性和效率。当然主要还是用户按需求设置ack值。

30、ISR、OSR、AR是什么？

ISR：In-Sync Replicas副本同步队列

OSR：Out-of-Sync Replicas同步超时队列

AR：Assigned Replicas所有副本。AR=ISR+OSR

ISR是由leader维护，follower从leader同步数据有一些延迟，超过相应阈值会把follower踢出ISR，存入OSR列表，新加入的follower也会先存放在OSR中。

LEO：是LogEndOffset的简称，代表当前日志文件中下一条。

HW：水位或水印（watermark）一词，也可称为高水位（high watermark），通常被用在流式处理领域（如flink，spark等），以表征元素或事件在基于时间层面上的精度。在kafka中，水位的概念反而与时间无关，而是与位置信息相关。

严格来说他表示的就是位置信息，即唯一（offset）。取partition对应的ISR中最小的LEO作为作为HW，consumer最多只能消费到HW所在的位置上一条信息。

LSO：是LastStableOffset的简称，对未完成的事务而言，LSO的值等于事务中第一条消息的位置（firstUnstableOffset），对已完成的事务而言，他的值等他HW。

LW：low watermark低水位，代表AR集合中最小的logStartOffset值。

32、kafka在什么情况下会出现消息丢失？

自动提交
设置offset为自动定时提交，当offset被自动定时提交时，数据还在内存中未处理，此时刚好把线程kill掉，那么offset已经提交，但是数据未处理，导致这部分内存中的数据丢失。
生产者发送消息
发送消息设置的是fire-and-forget（发后即忘），它只管往 Kafka 中发送消息而并不关心消息是否正确到达。不过在某些时候（比如发生不可重试异常时）会造成消息的丢失。这种发送方式的性能最高，可靠性也最差。
消费者端
先提交位移，但是消息还没消费完就宕机了，造成了消息没有被消费。自动位移提交同理
acks没有设置为all
如果在broker还没把消息同步到其他broker的时候宕机了，那么消息将会丢失

33.怎么尽可能保证 Kafka 的可靠性

**topic级别：replication-factor>=3；
**
**producer级别：acks=-1；同时发送模式设置producer.type=sync；
**
broker级别：关闭不完全的leader选举，即unclean.leader.election.enable=false;

数据一致性

leader副本对外提供服务（写入和读出），leader写入的数据的位置称为LEO（logendoffset），其它follower副本也有LEO，随着同步leader的数据副本的LEO会慢慢和leader的LEO同步。

在ISR列表里面所有副本的LEO最小的叫做HW（HighWatermark），consumer读取数据只能读取HW之前数据，如果在此期间发生leader选举，选举期间leader服务不可用，直到完成后，新leader重新对外提供服务。

ps：

producer生产数据需要设置ack=-1，只有接收到所有副本的ack后才算完成写入操作即更新了HW。保证了producer和partition的数据一致，

如果发生leader选举，leader只会在ISR列表中产生，ISR最小的LEO是HW，consumer只能消费HW之前的数据。这种HW机制保证了partition和consumer的数据一致

34、消费者和消费者组有什么关系

Consumer Group下可以有一个或多个Consumer实例。这里的实例可以是一个单独的进程，也可以是同一进程下的线程。在实际场景中，使用进程更为常见一些。
topic主题会将消息发给所有订阅了的组。组内的实例轮流获取消息。
如果要将一个消息多播，则一个consumer group对应一个consumer，每个consumer都能获取消息，将同一份数据发送到不同系统。如果只是想让一个消息单播，则一个consumer group对应多个consumer，每个消息只有一个consumer获取，常见于需要增加消费能力的场景。

35.Kafka 的每个分区只能被一个消费者线程，如何做到多个线程同时消费一个分区？

线程封闭，即为每个线程实例化一个kafkaconsumer对象。一个线程对应一个kafkaconsumer实例，称之为消费线程。一个消费线程可以雄安飞一个或多个分区中的消息，所有的消费线程都隶属于同一个消费组。多线程+多kafkaconsumer实例
消费者程序使用单或多线程获取消息，同时创建多个消费线程执行消息处理逻辑。获取消息的线程可以是一个也可以是多个，每个线程维护专属的kafkaconsumer实例，处理消息则交由特定的线程池来做，从而实现消息获取与消息处理的真正解耦。单线程+单kafkaconsumer实例+消息处理worker线程池

37.Kafka 消费者是否可以消费指定分区消息？

可以。kafkaconsumer消费消息时，向broker发出fetch请求去消费特定分区的消息，consumer指定消息在日志中的偏移量（offset），就可以消费从这个位置开始的消息，customer拥有了offset的控制权，可以向后回滚去重新消费之前的消息，这是很有意义的。

38.Kafka消息是采用Pull模式，还是Push模式？

采用的pull模式。（producer将消息推送到broker，consumer从broker拉取消息。）

好处

consumer可以根据自己的消费能力进行消费，比如消费速率不一样，是否批量拉取数据。

缺点

如果broker没有可供消费的消息，将导致consumer不断在循环中轮询，直到消息到达。为避免这点，kafka有参数可以让consumer阻塞直到新消息到达。（也可以阻塞直到消息数量达到某个特定的量，实现批量发）

39、Kafka 消息格式的演变清楚吗？

v0版消息格式(kafka 0.10之前的版本)

crc32（4B）：crc32校验值。校验范围为magic至value之间。 magic（1B）：消息格式版本号，此版本的magic值为0。 attributes（1B）：消息的属性。总共占1个字节，低3位表示压缩类型：0表示NONE、1表示GZIP、2表示SNAPPY、3表示LZ4（LZ4自Kafka 0.9.x引入），其余位保留。 key length（4B）：表示消息的key的长度。如果为-1，则表示没有设置key，即key=null。 key：可选，如果没有key则无此字段。 value length（4B）：实际消息体的长度。如果为-1，则表示消息为空。 value：消息体。可以为空，比如tomnstone消息。

v1版本(从0.10.0版本开始到0.11.0版本之前的版本）

v1版本比v0版本多一个8B的timestamp字段；

timestamp字段作用：
内部而言：影响日志保存、切分策略；
外部而言：影响消息审计、端到端延迟等功能的扩展

v2版本(0.11.0版本及之后的版本)

相对v0和v1改动较大，引入了变长整形Varints和ZigZag编码。

Varints作用：根据数值的大小，调整占用的字节数，数值越小，占用的字节数就越小
      0-63之间的数字占1个字节，64-8191之间的数字占2个字节，8192-1048575之间的数字占3个字节
      kafka broker的配置message.max.bytes的默认大小为1000012（Varints编码占3个字节）

ZigZag编码：使绝对值较小的负数仍然享有较小的Varints编码值

V2版本消息集称为Record Batch(v0和v1称为Message Set)，相较于V0、V1版本

    (1)将多个消息(Record)打包存放到单个RecordBatch中，v2版本的单个Record Batch Header相较于v0、v1版本的多个Log_OVERHEAD(每个Record都会有1个LOG_OVERHEARD)，会节省空间；
    (2)引入变长整形Varints和ZigZag编码，能够灵活的节省空间

40.Kafka 偏移量的演变清楚吗？

Kafka 0.10.x 对于非压缩的消息偏移量处理和 Kafka 0.8.x 一致，这里就不再介绍了。这里主要介绍 Kafka 0.10.x 对压缩消息偏移量处理逻辑。和 Kafka 0.8.x 处理内部消息偏移量逻辑不一样，这个版本对于内部消息偏移量使用的是相对偏移量，从0开始，依次到n-1，这里的n代表压缩消息的条数。

这个逻辑和 Kafka 0.8.x 处理逻辑一致，不再介绍。有一点需要注意，Kafka 0.10.x 会将消息的 magic 值设置为 1，用于区分其他版本的消息，后面会介绍这样设置的用处。

Broker 端接收到 Producer 发送过来的压缩消息，其也是先解压接收到的压缩消息，然后做一堆的判断，比如消息的 magic 值是否大于0，压缩消息内部的消息偏移量值是否连续（0,1,2,3这样的）等，如果符合这些条件（inPlaceAssignment = true），那么 Broker 会直接处理整个压缩消息外部的偏移量，内部消息的偏移量不需要设置，因为这个在 Producer 端已经设置好了；并不需要再次压缩消息，最后会将这条消息追加到 Log 文件中。

如果 inPlaceAssignment = false，这时候会直接操作解压后的消息，并给压缩消息内部消息设置偏移量，最后设置整个压缩消息的偏移量；这时候会忽略掉 Producer 端为压缩消息设置的偏移量，包括内部消息和整个压缩消息的偏移量。整个处理逻辑分为两种情况：

（1）如果接收到的消息不是由 Kafka 0.10.x 版本Producer客户端发送过来的，那么消息的 magic 值会等于0，这时候 Broker 设置偏移量逻辑和 Kafka 0.8.x 处理逻辑一致，也就是不管内部消息还是整个压缩消息的偏移量都是使用绝对偏移量；

（2）如果接收到的消息是由 Kafka 0.10.x 版本Producer客户端发送过来的，那么消息的 magic 值会等于1，这时候 Broker 会将压缩消息内部的消息偏移量设置成相对的，从0开始，依次到 n-1 ，最后整个压缩消息的偏移量为nextOffset + n - 1，其中n为压缩消息的条数。

偏移量设置完之后，对于inPlaceAssignment = false，不管是由什么版本发送过来的消息， Broker 需要重新压缩刚刚解压好的消息，最后会将这条消息追加到 Log 文件中。

Client端对于压缩消息偏移量处理

对不同版本的 Client 请求， Broker 会做出不同的判断：对于非 Kafka 0.10.x 版本的 Consumer，Broker 端消息的发送不会使用零拷贝技术；而如果是 Kafka 0.10.x 版本的 Consumer，Broker 端消息的发送才会使用零拷贝技术

41.Kafka 高效文件存储设计特点

Kafka把topic中一个parition大文件分成多个小文件段，通过多个小文件段，就容易定期清除或删除已经消费完文件，减少磁盘占用。
通过索引信息可以快速定位message和确定response的最大大小。
通过index元数据全部映射到memory，可以避免segment file的IO磁盘操作。
通过索引文件稀疏存储，可以大幅降低index文件元数据占用空间大小

42.Kafka创建Topic时如何将分区放置到不同的Broker中

副本因子不能大于 Broker 的个数；
第一个分区（编号为0）的第一个副本放置位置是随机从 brokerList 选择的；
其他分区的第一个副本放置位置相对于第0个分区依次往后移。也就是如果我们有5个 Broker，5个分区，假设第一个分区放在第四个 Broker 上，那么第二个分区将会放在第五个 Broker 上；第三个分区将会放在第一个 Broker 上；第四个分区将会放在第二个 Broker 上，依次类推；
剩余的副本相对于第一个副本放置位置其实是由 nextReplicaShift 决定的，而这个数也是随机产生的；

43.Kafka新建的分区会在哪个目录下创建

我们知道，在启动 Kafka 集群之前，我们需要配置好 log.dirs 参数，其值是 Kafka 数据的存放目录，这个参数可以配置多个目录，目录之间使用逗号分隔，通常这些目录是分布在不同的磁盘上用于提高读写性能。当然我们也可以配置 log.dir 参数，含义一样。只需要设置其中一个即可。

如果 log.dirs 参数只配置了一个目录，那么分配到各个 Broker 上的分区肯定只能在这个目录下创建文件夹用于存放数据。

但是如果 log.dirs 参数配置了多个目录，那么 Kafka 会在哪个文件夹中创建分区目录呢？答案是：Kafka 会在含有分区目录最少的文件夹中创建新的分区目录，分区目录名为 Topic名+分区ID。注意，是分区文件夹总数最少的目录，而不是磁盘使用量最少的目录！也就是说，如果你给 log.dirs 参数新增了一个新的磁盘，新的分区目录肯定是先在这个新的磁盘上创建直到这个新的磁盘目录拥有的分区目录不是最少为止。

44.谈一谈 Kafka 的再均衡（Rebalance）

在Kafka中，当有新消费者加入或者订阅的topic数发生变化时，会触发Rebalance(再均衡：在同一个消费者组当中，分区的所有权从一个消费者转移到另外一个消费者)机制，Rebalance顾名思义就是重新均衡消费者消费。Rebalance的过程如下：

第一步：所有成员都向coordinator发送请求，请求入组。一旦所有成员都发送了请求，coordinator会从中选择一个consumer担任leader的角色，并把组成员信息以及订阅信息发给leader。

第二步：leader开始分配消费方案，指明具体哪个consumer负责消费哪些topic的哪些partition。一旦完成分配，leader会将这个方案发给coordinator。coordinator接收到分配方案之后会把方案发给各个consumer，这样组内的所有成员就都知道自己应该消费哪些分区了。

所以对于Rebalance来说，Coordinator起着至关重要的作用

45.谈谈 Kafka 分区分配策略

在 Kafka 内部存在两种默认的分区分配策略：Range 和 RoundRobin。当以下事件发生时，Kafka 将会进行一次分区分配：

同一个 Consumer Group 内新增消费者
消费者离开当前所属的Consumer Group，包括shuts down 或 crashes
订阅的主题新增分区

Range strategy

Range策略是对每个主题而言的，首先对同一个主题里面的分区按照序号进行排序，并对消费者按照字母顺序进行排序。

然后将partitions的个数除于消费者线程的总数来决定每个消费者线程消费几个分区。如果除不尽，那么前面几个消费者线程将会多消费一个分区。

缺点：如果有n个主题，并且都不能整除，排序前面的消费者会比其它消费者进程多消费n个分区。

RoundRobin strategy

使用RoundRobin策略有两个前提条件必须满足：

同一个Consumer Group里面的所有消费者的num.streams必须相等；
每个消费者订阅的主题必须相同。

RoundRobin策略的工作原理：

将所有主题的分区组成 TopicAndPartition 列表，然后对 TopicAndPartition 列表按照 hashCode 进行排序。

最后按照round-robin风格将分区分别分配给不同的消费者线程。

因为根据hashcode排序，降低了同一个consumer分配到多个主题中的多余分区的概率。、

ps：

通过partition.assignment.strategy参数选择 range 或 roundrobin。partition.assignment.strategy参数默认的值是range。

推荐partition个数是consumer数的整数倍或者说consumer个数是partition个数的因子

46.Kafka Producer 是如何动态感知主题分区数变化的？

Kafka是分布式消息系统，需要处理海量的消息，Kafka的设计是把所有的消息都写入速度低容量大的硬盘，以此来换取更强的存储能力，但实际上，使用硬盘并没有带来过多的性能损失。kafka主要使用了以下几个方式实现了超高的吞吐率：

顺序读写
零拷贝
文件分段
批量发送
数据压缩。

48.Kafka 监控都有哪些？

比较流行的监控工具有：

KafkaOffsetMonitor

KafkaManager

Kafka Web Console

Kafka Eagle

JMX协议（可以用诸如jdk自带的jconsole来进行连接获取状态信息）

49.如何为Kafka集群选择合适的Topics/Partitions数量

针对kafka 1.1.0以及之后的版本，建议单台broker上partition数量不超过4000, 整个集群partition数量不超过2000,000，主要原因还是上面讲过的controller选举和controller重新选举partition leader的耗时。

相对kafka 1.1.0之前版本，这个parition数量已经有了很大提高，这全部得益于controller处理broker shutdown流程的优化，主要是针对zk的写操作异步化，批量化，将新的metadata通知给没有shutdown的broker也批量化，减少RPC次数，但是最最主要的，大家肯定想不到，是减少了不必要的log，具体可参考Apache Kafka Supports 200K Partitions Per Cluster

50.谈谈你对 Kafka 事务的了解？

参见这篇文章：http://www.jasongj.com/kafka/transaction/

Kafka事务机制的实现主要是为了支持

Exactly Once即正好一次语义
操作的原子性
有状态操作的可恢复性

实现事务机制的几个阶段

幂等性发送
事务性保证
事务性消息传递
事务中Offset的提交
用于事务特性的控制型消息
事务过期机制

51.谈谈你对 Kafka 幂等的了解？

参见这篇文章：https://www.jianshu.com/p/b1599f46229b

Kafka在0.11.0.0版本支持增加了对幂等的支持。幂等是针对生产者的特性。幂等可以保证生产者发送的消息，不会丢失，而且不会重复。

如何实现幂等

HTTP/1.1中对幂等性的定义是：一次和多次请求某一个资源对于资源本身应该具有同样的结果（网络超时等问题除外）。也就是说，其任意多次执行对资源本身所产生的影响均与一次执行的影响相同。

实现幂等的关键点就是服务端可以区分请求是否重复，过滤掉重复的请求。要区分请求是否重复的有两点：

唯一标识：要想区分请求是否重复，请求中就得有唯一标识。例如支付请求中，订单号就是唯一标识
记录下已处理过的请求标识：光有唯一标识还不够，还需要记录下那些请求是已经处理过的，这样当收到新的请求时，用新请求中的标识和处理记录进行比较，如果处理记录中有相同的标识，说明是重复交易，拒绝掉

Kafka幂等性实现原理

为了实现Producer的幂等性，Kafka引入了Producer ID（即PID）和Sequence Number。

PID。每个新的Producer在初始化的时候会被分配一个唯一的PID，这个PID对用户是不可见的。
Sequence Numbler。（对于每个PID，该Producer发送数据的每个都对应一个从0开始单调递增的Sequence Number

Kafka可能存在多个生产者，会同时产生消息，但对Kafka来说，只需要保证每个生产者内部的消息幂等就可以了，所有引入了PID来标识不同的生产者。

对于Kafka来说，要解决的是生产者发送消息的幂等问题。也即需要区分每条消息是否重复。
Kafka通过为每条消息增加一个Sequence Numbler，通过Sequence Numbler来区分每条消息。每条消息对应一个分区，不同的分区产生的消息不可能重复。所有Sequence Numbler对应每个分区

Broker端在缓存中保存了这seq number，对于接收的每条消息，如果其序号比Broker缓存中序号大于1则接受它，否则将其丢弃。这样就可以实现了消息重复提交了。但是，只能保证单个Producer对于同一个的Exactly Once语义。不能保证同一个Producer一个topic不同的partion幂等。

52.Kafka 缺点？

由于是批量发送，数据并非真正的实时；
对于mqtt协议不支持；
不支持物联网传感数据直接接入；
仅支持统一分区内消息有序，无法实现全局消息有序；
监控不完善，需要安装插件；
依赖zookeeper进行元数据管理；

53.Kafka 新旧消费者的区别

旧的 Kafka 消费者 API 主要包括：SimpleConsumer（简单消费者）和 ZookeeperConsumerConnectir（高级消费者）。SimpleConsumer 名字看起来是简单消费者，但是其实用起来很不简单，可以使用它从特定的分区和偏移量开始读取消息。高级消费者和现在新的消费者有点像，有消费者群组，有分区再均衡，不过它使用 ZK 来管理消费者群组，并不具备偏移量和再均衡的可操控性。

现在的消费者同时支持以上两种行为，所以为啥还用旧消费者 API 呢？

54.Kafka 分区数可以增加或减少吗？为什么？

我们可以使用 bin/kafka-topics.sh 命令对 Kafka 增加 Kafka 的分区数据，但是 Kafka 不支持减少分区数。

Kafka 分区数据不支持减少是由很多原因的，比如减少的分区其数据放到哪里去？是删除，还是保留？删除的话，那么这些没消费的消息不就丢了。如果保留这些消息如何放到其他分区里面？追加到其他分区后面的话那么就破坏了 Kafka 单个分区的有序性。如果要保证删除分区数据插入到其他分区保证有序性，那么实现起来逻辑就会非常复杂。

55.kafka消息的存储机制

kafka通过 topic来分主题存放数据，主题内有分区，分区可以有多个副本，分区的内部还细分为若干个 segment。都是持久化到磁盘，采用零拷贝技术。

1、高效检索

分区下面，会进行分段操作，每个分段都会有对应的素引，这样就可以根据 offset二分查找定位到消息在哪一段，根据段的索引文件，定位具体的 mle ssage

2、分区副本可用性(1 eader选举，zk来协调

如果1eader宕机，选出了新的1eader，而新的 leader并不能保证已经完全同步了之前1eader的所有数据，只能保证HW(高水位设置)之前的数据是同步过的，此时所有的 follower都要将数据截断到W的位置，再和新的 leader同步数据，来保证数据一致。

当宕机的 leader恢复，发现新的1eader中的数据和自己持有的数据不一致，此时宕机的1 eader会将自己的数据截断到宕机之前的hw位置，然后同步新1 eader的数据。宕机的1eader活过来也像 follower一样同步数据，来保证数据的一致性。

56.相比较于传统消息队列，kafka的区别

1、分区性:存储不会受单一服务器存储空间的限制

2、高可用性:副本1 eader选举

3、消息有序性:一个分区内是有序的。

4、负载均衡性:分区内的一条消息，只会被消费组中的一个消费者消费，主题中的消息，会均衡的发送给消费者组中的所有消费者进行消费。

57.消息丢失和消息重复

同步:这个生产者写一条消息的时候，它就立马发送到某个分区去。

异步:这个生产者写一条消息的时候，先是写到某个缓冲区，这个缓冲区里的数据还没写到 broker集群里的某个分区的时候，它就返回到 client去了

针对消息丢失:同步模式下，确认机制设置为-1，即让消息写入 Leader和 Fol lower之后再确认消息发送成功:

异步模式下，为防止缓冲区满，可以在配置文件设置不限制阻塞超时时间，当缓冲区满时让生产者一直处于阻塞状态

针对消息重复，将消息的唯一标识保存到外部介质中，每次消费时判断是否处理过即可

你可能感兴趣的:(面试,kafka,业务分析,大数据,kafka)

【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
Java面试黄金宝典5 ylfhpy Java面试黄金宝典 java 面试开发语言职场和发展算法
1.ConcurrentHashMap和HashTable有哪些区别原理HashTable：它继承自Dictionary类，是Java早期提供的线程安全哈希表。其线程安全的实现方式是对每个方法都使用synchronized关键字进行同步。例如，在调用put、get等方法时，整个HashTable会被锁定，其他线程必须等待当前线程释放锁后才能访问该方法。javaimportjava.util.Has
Java基础面试题学习 PowerCloud java 学习开发语言
转换成自已的语言来回答，来源小林coding、沉默王二以及其它资源和自已改编。1、概念1、说一下Java的特点我认为Java有很多特点首先是平台无关性：Java可以实现一次编译到处运行，因为Java的编译器将源代码编译成字节码，使得该字节码可以在任意装有JVM的操作系统上运行。其次是面向对象的性质：Java是面向对象编程语言，这种OOP的特性使得代码易于维护和重用。主要源于封装继承多态这三大特性。
腾讯技术岗位笔试&面试题(一) TechPioneer_lp 互联网大厂技术面试 c++面试数据结构个人开发算法
说在前面本篇文章是腾讯技术面试题目汇总第一篇。后续将持续推出互联网大厂，如阿里，腾讯，百度，美团，头条等技术面试题目，以及答案和分析。欢迎大家点赞关注转发。1.map插入方式有几种？用insert函数插入pair数据，mapStudent.insert(pair(1,“student_one”));用insert函数插入value_type数据mapStudent.insert(map::valu
24远景能源-动力，10月最后一周面试！【NTAKYsW】 2301_79125642 java
大模型公司收实习啦，入局好机会，全是大佬不卷后端研发实习生简历投递请联系我，牛客会屏蔽邮箱日常实习：面向全体在校生，为符合岗位要求的同学提供为期3个月及以上的项目实践机会。公司介绍下午移动笔试，晚上联通笔试我看到好多投移动都去面试了，但是我没有面试也没有任何消息，而且智联校园上面hr也没有查看，这是怎么回事，难道是随便发的笔试吗...应该投的是什么AI研究中心联通许愿美团商分octl:一面-10.
java面试题,既然你说到了创建线程池，那么你知道创建线程池的方式有哪几种吗？ java程序员CC java 开发语言
在Java中，创建线程池的方式有多种，其中比较常用的方式包括：FixedThreadPool（固定大小线程池）：通过Executors.newFixedThreadPool(intn)方法创建，线程池中的线程数量固定为n，适合处理任务量稳定的场景。CachedThreadPool（缓存线程池）：通过Executors.newCachedThreadPool()方法创建，线程池的线程数量不固定，根据
【面经&八股】搜广推方向：面试记录（十三）秋冬无暖阳° 搜广推等—算法面经面试职场和发展
【面经&八股】搜广推方向：面试记录（十三）文章目录【面经&八股】搜广推方向：面试记录（十三）1.自我介绍2.实习经历问答3.八股之类的问题4.编程题5.反问6.可以1.自我介绍。。。。。。2.实习经历问答挑最熟的一个跟他讲就好了。一定要熟~3.八股之类的问题极大似然估计和贝叶斯估计，区别与联系建议参考这个链接transformer为什么要使用多头关键点在于集成，使语义更加完善圆上随机去三个点，三个
面试题：session和cookie的区别？客户端禁用cookie, session还能用吗？来之前不会起名字面试题 java 服务器 javascript 面试
session和cookie的区别区别一：存放位置不同cookie数据保存在客户端，session数据保存在服务端。区别二：session比cookie安全cookie不是很安全，别人可以分析存放在本地的COOKIE并进行COOKIE欺骗，考虑安全选session区别三：cookie对服务器造成的压力比session小session会在一定时间内保存在服务器上。当访问增多，会比较占用你服务器的性能
Spring Boot 与 Couchbase 整合教程嘵奇提升自己 spring boot 后端 java
精心整理了最新的面试资料和简历模板，有需要的可以自行获取点击前往百度网盘获取点击前往夸克网盘获取SpringBoot与Couchbase整合教程环境要求JDK8+SpringBoot2.7.xCouchbaseServer7.xMaven/Gradle步骤1：创建SpringBoot项目使用start.spring.io创建项目，添加以下依赖：SpringWeb（可选，用于RESTAPI）Spri
向量检索、检索增强生成（RAG）、大语言模型及相关系统架构——典型面试问题及简要答案快撑死的鱼算法工程师宝典（面试学习最新技术必备）语言模型系统架构面试
1.什么是向量检索？它与传统基于关键字的检索相比有什么不同？答案要点：向量检索是将文本、图像、音频等数据映射为向量，在高维向量空间中基于相似度或距离进行搜索。与传统基于关键字的检索（如倒排索引）相比，向量检索更关注“语义”或“特征”，能找出语义上相似但未必包含相同关键词的内容。向量检索非常适合多模态场景（例如“以图搜图”）或自然语言问答（同义词、上下文关联等）。2.什么是检索增强生成（RAG）？核
大模型最新面试题系列：微调篇之微调基础知识人肉推土机大模型最新面试题集锦大全面试人工智能 AI编程大模型微调 LLM
一、全参数微调（Full-Finetune）vs参数高效微调（PEFT）对比1.显存使用差异全参数微调：需存储所有参数的梯度（如GPT-3175B模型全量微调需约2.3TB显存）PEFT：以LoRA为例，仅需存储低秩矩阵参数（7B模型使用r=16的LoRA时显存占用减少98%）实战经验：在A10080GB显存下，全量微调LLaMA-7B需DeepSpeedZero3优化，而LoRA可直接单卡运行2
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
Spring Boot与Hazelcast整合教程嘵奇提升自己 spring boot 后端 java
精心整理了最新的面试资料和简历模板，有需要的可以自行获取点击前往百度网盘获取点击前往夸克网盘获取SpringBoot与Hazelcast整合教程简介Hazelcast是一个开源的内存数据网格（IMDG），提供分布式缓存、计算和数据结构功能。与SpringBoot整合后，可以快速实现分布式缓存、会话共享等功能。本教程将演示如何将Hazelcast嵌入SpringBoot应用。环境准备JDK17+Sp
Kafka跨集群数据备份与同步：MirrorMaker运用磐基Stack专业服务团队 Kafka kafka 分布式
#作者：张桐瑞文章目录前言MirrorMaker是什么运行MirrorMaker各个参数的含义前言在大多数情况下，我们会部署一套Kafka集群来支撑业务需求。但在某些特定场景下，可能需要同时运行多个Kafka集群。比如，为了实现灾难恢复，你可以在不同机房分别部署独立的Kafka集群。如果一个机房发生故障，你可以快速切换流量到另一个正常运行的机房。另外，如果你希望为地理上较近的客户提供低延迟的消息服
【大模型系列】SFT（Supervised Fine-Tuning，监督微调） Kwan的解忧杂货铺@新空间代码工作室 s2 AIGC 大模型
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
深入理解 Kafka 的 ConsumerRebalanceListener t0_54coder 编程问题解决手册 kafka linq 分布式
深入理解Kafka的ConsumerRebalanceListener在分布式系统中，数据的一致性和可靠性是至关重要的。ApacheKafka作为一个流行的分布式流处理平台，提供了强大的数据传输和处理能力。在Kafka中，消费者组（ConsumerGroup）的概念允许多个消费者实例共同处理一个主题的数据。然而，当消费者实例的个数发生变化时，如何确保数据的平衡和一致性呢？这就引出了我们今天要讨论的
如何解决Kafka Rebalance引起的重复消费 maozexijr kafka linq 分布式
在Kafka中，Rebalance（再平衡）是消费者组（ConsumerGroup）动态调整分区分配的过程。当消费者组中的成员发生变化（例如消费者加入或退出）、订阅的Topic分区数量变化、或者消费者长时间未发送心跳时，都会触发Rebalance。虽然Rebalance有助于负载均衡和容错，但它也可能导致重复消费的问题。以下是一些解决因Rebalance引起的重复消费问题的方法：1.禁用自动提交O
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
力扣刷题|链表面试题 02.02. 返回倒数第 k 个节点柯ran 力扣 leetcode 算法数据结构链表
题目：实现一种算法，找出单向链表中倒数第k个节点。返回该节点的值。快慢指针思想，画图更容易理解/***Definitionforsingly-linkedlist.*structListNode{*intval;*structListNode*next;*};*/intkthToLast(structListNode*head,intk){assert(head!=NULL);if(head==N
2025年渗透测试面试题总结-某四字大厂实习面试复盘一面二面三面（题目+回答）独行soc 2025年渗透测试面试指南面试职场和发展安全 web安全红蓝攻防 python
网络安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录一面1.数组和链表各自的优势和原因2.操作系统层面解析和进程3.线程和进程通信方式及数据安全问题4.线程和多进程的选用场景及原因5.SQL注入绕WAF方式6.FUZZ绕WAF的payload长度通常是多少7.不查资料直接写IPv4正则regex8.Fastjson反序
java面试题,什么是动态代理？、动态代理和静态代理有什么区别？说一下反射机制？JDK Proxy 和 CGLib 有什么区别？动态代理的底层述雾学java java 开发语言 java面试题反射 java核心基础
什么是动态代理？动态代理是在程序运行期，动态的创建目标对象的代理对象，并对目标对象中的方法进行功能性增强的一种技术。在生成代理对象的过程中，目标对象不变，代理对象中的方法是目标对象方法的增强方法。可以理解为运行期间，对象中方法的动态拦截，在拦截方法的前后执行功能操作。动态代理的常见使用场景有：统计每个api的请求耗时；统一的日志输出；校验被调用的api是否已经登录和权限鉴定；SpringAOP。动
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
Swift高效解法！一文搞懂 LeetCode 236「二叉树的最近公共祖先」，助你快速拿下面试！网罗开发 Swift swift leetcode 面试
摘要最近公共祖先（LCA，LowestCommonAncestor）在二叉树、二叉搜索树（BST）等数据结构中有广泛应用，比如权限管理、网络路由、基因分析等。今天我们用Swift来解LeetCode236：「二叉树的最近公共祖先」，不仅会给出代码，还会分析它的时间复杂度、空间复杂度，并结合实际场景聊聊它的应用。问题描述给定一个二叉树，找到两个节点的最近公共祖先（LCA）。LCA的定义：“对于两个节
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
面试可能会问到的问题dSP xinyizhangwei dsp
1.如何选择外部时钟？DSP的内部指令周期较高，外部晶振的主频不够，因此DSP大多数片内均有PLL。但每个系列不尽相同。1)TMS320C2000系列：TMS320C20x：PLL可以÷2，×1，×2和×4，因此外部时钟可以为5MHz－40MHz。TMS320F240：PLL可以÷2，×1，×1.5，×2，×2.5，×3，×4，×4.5，×5和×9，因此外部时钟可以为2.22MHz－40MHz。T
收入突破 5 万，从大专生到大模型开发-第二篇（下）智码工坊 AI编程程序人生
第二篇下：实战案例拆解——我用AI干掉80%重复工作大家好，我是明聪，98年逆袭的大模型研发工程师，前Java转型幸存者，湖北荆州人，毕业武汉某职校。学习心得：突出“普通人破局”的真实挣扎深夜破防：我也想过放弃1：学RAG时，连续3天卡在向量数据库检索效果，甚至想“回去干Java算了”。直到发现LangChain-Chatchat开源项目，直接套用现成框架，才重拾信心。2：第一次面试被质疑“半路出
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round