JC. Lin

浅谈MQ-kafka存储原理

Kafka Broker 存储原理

1.文件的存储结构

1.1 partition分区

为了实现横向扩展，把不同数据存放在不同的Broker上，同时降低单台服务器的访问压力，我们把一个topic中的数据分隔成多个partition。

一个partition中的消息是有序的，顺序写入，但是全局不一定有序。

在服务器上，每个partition都有一个物理目录，topic名字后面的数字标号即代表分区。

1.2 replica副本

为了提高分区的可靠性，kafka又设计了副本机制。

创建topic的时候，通过指定replication-factor确定topic的副本数。

注意：副本数必须小于等于节点数，而不能大于Broker的数量，否则会报错。

./kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 4 --partitions 1 --topic overrep

这样就可以保证，绝对不会有一个分区的两个副本分布在同一个节点上，不然副本机制也失去了备份的意义了。

这些所有的副本分为两种角色，leader对外提供读写服务。follower唯一的任务就是从leader异步拉取数据。

思考：为什么不能像MySQL一样实现读写分离?写操作都在leader上，读操作都在follower上。

这个是设计思想的不同。读写都发生在leader节点，就不存在读写分离带来的一致性问题了，这个叫做单调读一致性。

1.3 如何区分leader

问题来了，如果分区有多个副本，哪一个节点上的副本是leader呢？

怎么查看所有副本中谁是leader？

sh ./kafka-topics.sh --topic businessMessage --describe --zookeeper localhost:2181

Topic: businessMessage PartitionCount: 3 ReplicationFactor: 3 Configs:
Topic: businessMessage Partition: 0 Leader: 1 Replicas: 1,2,0 Isr: 1,0,2
Topic: businessMessage Partition: 1 Leader: 2 Replicas: 2,0,1 Isr: 0,1,2
Topic: businessMessage Partition: 2 Leader: 0 Replicas: 0,1,2 Isr: 0,1,2

解释：这个topic有3个分区3个副本。
第一个分区的3个副本编号0，1，2（代表Broker的序号），同步中的是0，1，2。第二个副本是leader。

1.4 副本在Broker的分布

实际上，分配策略是由Admin Utils.scala的assign Replicas To Brokers函数决定的。

规则如下：

fir to fall，副本因子不能大于Broker的个数；
第一个分区(编号为0的分区) 的第一个副本放置位置是随机从broker List选择的；
其他分区的第一个副本放置位置相对于第0个分区依次往后移。

也就是说：如果我们有5个Broker，5个分区，假设第1个分区的第1个副本放在第四个Broker上，那么第2个分区的第1个副本将会放在第五个Broker上；第三个分区的第1个副本将会放在第一个Broker上；第四个分区的第1个副本将会放在第二
个Broker上，依次类推；
每个分区剩余的副本相对于第1个副本放置位置其实是由next Replica Shift决定的，而这个数也是随机产生的。

这样设计可以提高容灾能力。怎么讲?

在每个分区的第一个副本错开之后，一般第一个分区的第一个副本(按Broker编号排序) 都是leader。leader是错开的，不至于一挂影响太大。

bin目录下的kafka-reassign-partitions.sh可以根据Broker数量变化情况重新分配分区。

1.5 Segment（分段）

为了防止log不断追加导致文件过大，导致检索消息效率变低，一个partition又被划分成多个segment来组织数据(MySQL也有segment的逻辑概念，叶子节点就是数据段，非叶子节点就是索引段)。

在磁盘上，每个segment由一个log文件和2个index文件组成。

00000000000000849751.index
00000000000000849751.log
00000000000000849751.time index

这三个文件是成套出现的。

leader-epoch-checkpoint 文件中保存了每一任leader开始写入消息时的offset。

.log日志文件(日志就是数据)
在一个segment文件里面，日志是追加写入的。如果满足一定条件，就会切分日志文件，产生一个新的segment。什么时候会触发segment的切分呢？

第一种是根据日志文件大小。当一个segment写满以后，会创建一个新的segment，用最新的offset作为名称。这个例子可以通过往一个Topic发送大量消息产生。

segment的默认大小是1073741824 bytes(1G) ，由这个参数控制：
```
log.segment.bytes
```
第二种是根据消息的最大时间戳，和当前系统时间戳的差值。

有一个默认的参数，168个小时(一周)：
```
log.roll.hours=168
```
意味着：如果服务器上次写入消息是一周之前，旧的segment就不写了，现在要创建一个新的segment。

还可以从更加精细的时间单位进行控制，如果配置了毫秒级别的日志切分间隔，会优先使用这个单位。否则就用小时的。
```
log.roll.ms
```
第三种情况，offset索引文件或者timestamp索引文件达到了一定的大小，默认是10485760字节(10M)。如果要减少日志文件的切分，可以把这个值调大一点。
```
log.index.size.max.bytes
```
亦即：索引文件写满了，数据文件也要跟着拆分，不然这一套东西对不上。
.index 偏移量（offset）索引文件
.timeindex时间戳（timestamp）索引文件

1.6 索引（index）

由于一个segment的文件里面可能存放很多消息，如果要根据offset获取消息，必须要有一种快速检索消息的机制。这个就是索引。在kafka中设计了两种索引。

偏移量索引文件记录的是offset和消息物理地址(在log文件中的位置) 的映射关系。时间戳索引文件记录的是时间戳和offset的关系。

当然，内容是二进制的文件，不能以纯文本形式查看。bin目录下有dump log工具。

查看最后10条offset索引：

sh kafka-dump-log.sh --files /tmp/kafka-logs/mytopic-0/00000000000000000000.index | head -n 10

注意kafka的索引并不是每一条消息都会建立索引，而是一种稀疏索引sparse index(DB 2和Mon gdb中都有稀疏索引) 。

所以问题就来了，这个稀疏索引到底有多稀疏?也就是说，隔几条消息才产生一个索引记录?或者隔多久?或者隔多少大小的消息?

实际上是用消息的大小来控制的，默认是4KB：

log.index.interval.bytes=4096

只要写入的消息超过了4KB，偏移量索引文件.index和时间戳索引文件.time index就会增加一条索引记录(索引项)。

这个值设置越小，索引越密集。值设置越大，索引越稀疏。

相对来说，越稠密的索引检索数据更快，但是会消耗更多的存储空间。

越的稀疏索引占用存储空间小，但是插入和删除时所需的维护开销也小。

Kafka索引的时间复杂度为O(log2n) +O(m) ，n是索引文件里索引的个数，m为稀疏程度。

第二种索引类型是时间戳索引。

为什么会有时间戳索引文件呢?光有offset索引还不够吗?会根据时间戳来查找消息吗?

首先消息是必须要记录时间戳的。客户端封装的Producer Record和ConsumerRecord都有一个long timestamp属性。

为什么要记录时间戳呢?

如果要基于时间切分日志文件，必须要记录时间戳；
如果要基于时间清理消息，必须要记录时间戳。

设计一个时间戳索引，可以根据时间戳查询。

注意时间戳有两种，一种是消息创建的时间戳，一种是消费在Broker追加写入的时间。到底用哪个时间呢?由一个参数来控制：

log.message.timestamp.type=CreateTime

默认是创建时间。如果要改成日志追加时间，则修改为LogAppendTime。

查看最早的10条时间戳索引：

sh kafka-dump-log.sh --files /tmp/kafka-logs/mytopic-0/00000000000000000000.timeindex | head -n 10

kafka如何基于索引快速检索消息？比如我要检索偏移量是10959的消息。

消费的时候是能够确定分区的，所以第一步是找到在哪个segment中。Segment文件是用base offset命名的，所以可以用二分法很快确定(找到名字不小于10959的segment) 。
这个segment有对应的索引文件，它们是成套出现的。所以现在要在索引文件中根据offset找position。
得到position之后，到对应的log文件开始查找offset，和消息的offset进行比较，直到找到消息

思考一个面试问题：为什么kafka不用B+Tree?

Kafka是写多，查少。如果kafka用B+Tree，首先会出现大量的B+Tree，大量插入数据带来的B+Tree的调整会非常消耗性能。

2.消息清理机制

# 消息清理开关
log.cleaner.enable=true
# 清理方式 1.直接删除 delete 2.对日志进行压缩 compact。默认是直接删除
log.cleanup.policy=delete

2.1删除策略

日志删除是通过定时任务实现的。默认5分钟执行一次，看看有没有需要删除的数据。

log.retention.check.interval.ms=300000

删除从哪里开始删呢?肯定是从最老的数据开始删。关键就是对于老数据的定义。

什么才是老数据的?

由时间控制

由一个参数来控制，默认：

log.retention.hours

默认值是168个小时(一周)，也就是时间戳超过一周的数据才会删除。

Kafka另外也提供了另外两个粒度更细的配置，分钟和毫秒。

log.retention.minutes

默认值是空。它的优先级比小时高，如果配置了则用这个。

log.retention.ms

默认值是空。它的优先级比分钟高，如果配置了则用这个。

这里还有一种情况，假设kafka产生消息的速度是不均匀的，有的时候一周几百万条，有的时候一周几千条，那这个时候按照时间来删除就不是那么合理了。

由文件大小控制

删除策略就是根据日志大小删除，先删旧的消息，删到不超过这个大小为止。

log.retention.bytes

默认值是-1，代表不限制大小，想写多少就写多少。log.retention.bytes指的是所有日志文件的总大小。也可以对单个segment文件大小进行限制。

log.segment.bytes

默认值1073741824字节(1G)。

2.2压缩策略

问题：如果同一个key重复写入多次，会存储多次还是会更新?

比如用来存储位移的这个特殊的topic：__consumer_offsets，存储的是消费者id和partition的offset关系，消费者不断地消费消息commit的时候，是直接更新原来的offset，还是不断地写入新的offset呢?肯定是存储多次，不然怎么能实现顺序写。

当有了这些key相同的value不同的消息的时候，存储空间就被浪费了。压缩就是把相同的key合并为最后一个value。

这个压缩跟Compression的含义不一样。所以，这里称为压紧更加合适。

Log Compaction执行过后的偏移量不再是连续的，不过这并不影响日志的查询。

3.高可用架构

3.1 Controller选举

当创建添加一个的分区或者分区增加了副本的时候，都要从所有副本中选举一个新的Leader出来。

投票怎么玩?是不是所有的partition副本直接发起投票，开始竞选呢?比如用ZK实现。

利用ZK怎么实现选举? ZK的什么功能可以感知到节点的变化(增加或者减少)? 或者说，ZK为什么能实现加锁和释放锁?

3个特点：watch机制；节点不允许重复写入；临时节点。

这样实现是比较简单，但是也会存在一定的弊端。如果分区和副本数量过多，所有的副本都直接进行选举的话，一旦某个出现节点的增减，就会造成大量的watch事件被触发，ZK的负载就会过重。

Kafka早期的版本就是这样做的，后来换了一种实现方式。

不是所有的repalica都参与leader选举，而是由其中的一个Broker统一来指挥，这个Broker的角色就叫做Controller(控制器) 。

就像RedisSentinel的架构，执行故障转移的时候，必须要先从所有哨兵中选一个负责做故障转移的节点一样。Kafka也要先从所有Broker中选出唯一的一个Controller。

所有的Broker会尝试在zookeeper中创建临时节点/controller，只有一个能创建成功(先到先得)。

如果Controller挂掉了或者网络出现了问题，ZK上的临时节点会消失。其他的Broker通过watch监听到Controller下线的消息后，开始竞选新的Controller。方法跟之前还是一样的，谁先在ZK里面写入一个/controller节点，谁就成为新的Controller。

一个节点成为Controller之后，它肩上的责任也比别人重了几份，正所谓劳力越戴，责任越大：

监听Broker变化。
监听Topic变化。
监听Partition变化。
获取和管理Broker、Topic、Partition的信息。
管理Partion tion的主从信息。

3.2 分区副本leader选举

https://kafka.apache.org/documentation/#replication
https://kafka.apache.org/documentation/#design_replicatedlog

Controller确定以后，就可以开始做分区选主的事情了(我叫它选举委员会主席) 。下面就是找候选人了。显然，每个replica都想推荐自己，但是所有的replica都有竞选资格吗?

并不是。这里要给大家说几个概念。

一个分区所有的副本，叫做Assigned-Replicas(AR) 。所有的皇太子。

这些所有的副本中，跟leader数据保持一定程度同步的，叫做In-Sync Replicas(ISR) 。

跟leader同步滞后过多的副本，叫做Out-Sync-Replicas(OSR) 。

AR=ISR+OSR。正常情况下OSR是空的，大家都正常同步，AR=ISR。

谁能够参加选举呢?肯定不是AR，也不是OSR，而是ISR。而且这个ISR不是固定不变的，还是一个动态的列表。

前面我们说过，如果同步延迟超过30秒，就踢出ISR，进入OSR；如果赶上来了，就加入ISR。

默认情况下，当leader副本发生故障时，只有在IS R集合中的副本才有资格被选举为新的leader。

如果ISR为空呢? 在这种情况下，可以让ISR之外的副本参与选举。允许ISR之外的副本参与选举，叫做unclean leader election。

unclean.leader.election.enable=false

把这个参数改成true(一般情况不建议开启，会造成数据丢失) 。

好了，委员会主席有了，候选人也确定了，终于可以选举了吧?根据什么规则确定leader呢?

首先第一个问题：分布式系统中常见的选举协议有哪些(或者说共识算法)?

ZAB(ZK) 、Raft(Red is Sentinel) (他们都是Paxos算法的变种) ，它们的思
想归纳起来都是：先到先得、少数服从多数。

但是kafka没有用这些方法，而是用了一种自己实现的算法。

为什么呢?比如ZAB这种协议，可能会出现脑裂(节点不能互通的时候，出现多个leader) 、惊群效应(大量watch事件被触发) 。

在这篇文章中：
https://kafka.apache.org/documentation/#design_replicatedlog
提到kafka的选举实现，最相近的是微软的PacificA算法。

There area rich variety of algorithms in this family including ZooKeeper’sZ ab，Raft，and
View stamped Replication.The most similar academic publication we are aware of to Kafka’s
actual implementation is PacificA from Microsoft.

在这种算法中，默认是让ISR中第一个replica变成leader。比如ISR是1、5、9，优先让1成为leader。这个跟中国古代皇帝传位是一样的，优先传给皇长子。

3.3 主从同步

leader确定之后，客户端的读写只能操作leader节点。follower需要向leader同步数据。

不同的r aplica的offset是不一样的，同步到底怎么同步呢?

这里又要先讲解几个概念了。

LEO(Log End Offset) ：下一条等待写入的消息的offset(最新的offset+1)，图中分别是9，8，6。可以用命令看到：

sh kafka-consumer-groups.sh --bootstrap-server 127.0.0.1:9092 --describe --group gp-test-group

PARTITION CURRENT-OFFSET LOG-END-OFFSET LAG
0 4 9 5

这个命令查看分区对应的offset：

sh kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list 127.0.0.1:9092 --topic 'mytopic' --time -l

HW(Hign Watermark)：ISR中最小的LEO。Leader会管理所有ISR中最小的LEO作为HW，目前是6。

consumer最多只能消费到HW之前的位置(消费到offset 5的消息) 。也就是说：其他的副本没有同步过去的消息，是不能被消费的。

为什么要这样设计呢? 如果在同步成功之前就被消费了，consumer group的offset会偏大。如果leader崩溃，中间会缺失消息。

有了这两个offset之后，再来看看消息怎么同步。

Follower1同步了1条消息，follower2同步了2条消息。此时HW推进了2，变成8。

follower1同步了0条消息，follower2同步了1条消息。此时HW推进了1，变成9。LEO和HW重叠，所有的消息都可以消费了。

这里，我们关注一下，从节点怎么跟主节点保持同步?

follower节点会向Leader发送一个fetch请求，leader向follower发送数据后，既需要更新follower的LEO。
follower接收到数据响应后，依次写入消息并且更新LEO。
leader更新HW(IS R最小的LEO) 。

kafka设计了独特的ISR复制，可以在保障数据一致性情况下又可提供高吞吐量。

3.4 replica 故障处理

follower故障

首先follower发生故障，会被先踢出ISR。

follower恢复之后，从哪里开始同步数据呢?假设第1个replica宕机(中间这个) 。

恢复以后，首先根据之前记录的HW（6），把高于HW的消息截掉（6，7）。然后向leader同步消息。追上leader之后（30秒），重新加入ISR。

leader故障

假设图中leader发生故障。

首先选一个leader。因为replica 1(中间这个) 优先，它成为leader。

为了保证数据一致，其他的follower需要把高于HW的消息截取掉(这里没有消息需要截取)。

然后replica 2同步数据。

注意：这种机制只能保证副本之间的数据一致性，并不能保证数据不丢失或者不重复。

你可能感兴趣的:(Kafka,kafka)

Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
Kafka系列之：Dead Letter Queue死信队列DLQ 快乐骑行^_^ Kafka Kafka系列 Dead Letter Queue 死信队列 DLQ
Kafka系列之：DeadLetterQueue死信队列DLQ一、死信队列二、参数errors.tolerance三、创建死信队列主题四、在启用安全性的情况下使用死信队列更多内容请阅读博主这篇博客：Kafka系列之：KafkaConnect深入探讨-错误处理和死信队列一、死信队列死信队列（DLQ）仅适用于接收器连接器。当一条记录以JSON格式到达接收器连接器时，但接收器连接器配置期望另一种格式，如
消息中间件巡检搬砖小常消息中间件运维笔记 RocketMQ kafka 中间件巡检运维
除资源使用情况外，消息中间件RocketMQ、kafka还可以巡检哪些？一、RocketMQ巡检1、检查broker写入耗时是否有压力2、检查brokerbusy的数量与频率3、主题发送TPS、发送错误率巡检4、从节点消费情况检查5、集群各broker消息流转情况巡检二、Kafka巡检1、检查是否有分区发生ISR频繁扩张收缩2、检查分区leader选举值是否处于正常水平3、检查controller
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
Kafka系列之：安装具有安全认证的kafka-2.8.2分布式集群快乐骑行^_^ 大数据 Kafka系列安全认证 kafka-2.8.2 分布式集群
Kafka系列之：安装具有安全认证的kafka-2.8.2分布式集群一、下载Zookeeper3.7.1和Kafka2.8.2二、解压Zookeeper3.7.1和Kafka2.8.2三、安装Zookeeper3.7.1详细步骤1.修改zookeeper配置文件2.创建zookeeper数据目录3.zookeeper创建myid4.设置zookeeper访问kafka认证5.拷贝zookeeper
rdkafka线程过多_我是如何处理大并发量订单处理的 KafKa部署总结 weixin_39574928 rdkafka线程过多
今天要介绍的是消息中间件KafKa，应该说是一个很牛的中间件吧，背靠Apache与很多有名的中间件搭配起来用效果更好哦，为什么不用RabbitMQ，因为公司需要它。网上已经有很多怎么用和用到哪的内容，但结果很多人都倒在了入门第一步环境都搭不起来，可谓是从了解到放弃，所以在此特记录如何在linux环境搭建，windows中配置一样，只是启动运行bat文件。想要用它就先必须了解它能做什么及能做到什么程
【Kafka】Failed to send data to Kafka: Expiring 30 record(s) for xxx 732453 ms has passed since last 九师兄 kafka big data zookeeper
文章目录1.美图2.背景2.尝试方案13.尝试解决24.场景再现25.场景46.场景57.场景78.场景8M.拓展本文为博主九师兄（QQ:541711153欢迎来探讨技术）原创文章，未经允许博主不允许转载。1.美图问题与【Flink】Flink写入kafka报错FailedtosenddatatoKafka:Expiring4record(s)for20001mshaspassed重复了。2.背景
【Flink】flink Kafka报错 : Failed to send data to Kafka: This server is not the leader for that topic-pa 九师兄 flink kafka 大数据
1.背景出现这个问题的背景请参考：【Kafka】FailedtosenddatatoKafka:Expiring30record(s)forxxx732453mshaspassedsincelast[2020-09-0513:16:09
【kafka】在Linux系统中部署配置Kafka的详细用法教程分享景天科技苑 linux基础与进阶 shell脚本编写实战 kafka linux 分布式 kafka安装配置 kafka优化
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，PyQt5和Tkinter桌面应用开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，云原生K8S，Prometheus监控，数据分析，Django
C/C++ 使用librdkafka库实现的生产者
InstallingprebuiltpackagesOnMacOSX：brewinstalllibrdkafkaOnDebianandUbuntu：aptinstalllibrdkafka-devOnRedHat,CentOS,Fedora：yuminstalllibrdkafka-develInstallinglibrdkafkausingvcpkg：#Installvcpkgifnotalre
使用 Docker 搭建 Python（Flask/CUDA AI）开发环境——AI教你学Docker
使用Docker搭建Python（Flask/CUDAAI）开发环境及常用中间件配置详解本指南适用于用Docker快速搭建Python（FlaskWeb应用或包含CUDA的AI开发环境）开发环境，并集成常用中间件服务如MySQL、Redis、Kafka。适合个人开发、本地测试和小团队协作。一、项目目录结构建议project-root/├──app/#Python应用源码目录│├──Dockerfi
Kafka如何做到消息不丢失野老杂谈全网最全IT公司面试宝典 kafka 分布式
一、三种消息传递语义（MessageDeliverySemantics）：核心是“消息被消费处理的次数”Kafka的三种传递语义本质上描述的是“一条消息从生产到最终被消费者处理完成，可能出现的次数”，这由生产者的消息写入可靠性和消费者的offset提交策略共同决定。1.Atmostonce（最多一次）定义：消息可能丢失，但绝不会被重复处理。触发场景：消费者先提交offset，再处理消息。流程：消费
各种消息队列经典问题解决方案——消息丢失、顺序消费、消息积压、重复消费 EyeDropLyq rabbitmq rocketmq kafka
写在开头：对于消息队列这种中间件来说，只要进入消息队列就会有几个绕不开的问题，比如：消息丢失、顺序消费、消息积压、重复消费，下面就来讲解一下市面上比较常见的各个不同的消息队列产品针对这四个问题的解决方案。1、Kafka消息丢失解决方案对于Kafka这个消息队列来说，消息丢失的环节有下面的几个地方：1、消息生产者发送消息给Broker的时候数据丢失2、Broker异常导致Broker中的数据丢失3、
Kafka浅学文文Tao kafka java 分布式
Kafka应用场景？异步解耦流量消锋Kafka消息队列特点？Kafka吞吐量高：因为他存储数据时，磁盘顺序存储，磁盘的顺序存储速度很快。Kafka持久化消息：这些消息日志可以被重复读取和永久保留可以运行时动态扩展伸缩：Kafka是分布式系统：它以集群的方式运行，早期依赖Zookeeper对于Kafka的作用是什么？Zookeeper是分布式协调服务。Zookeeper作用：用于在Kafka集群中不
详解Kafka重平衡机制详解
Kafka的重平衡机制（Rebalance）是确保消费者组内成员动态变化（如新成员加入、现有成员退出或崩溃、订阅主题分区数变化）时，分区所有权能合理、公平地重新分配的核心机制。其目标是保证所有分区都有消费者处理，且负载相对均衡。一、重平衡的触发条件1.消费者加入组：新消费者启动并加入已存在的消费者组。消费者崩溃后重新恢复并重新加入组。2.消费者离开组：消费者主动关闭（发送LeaveGroup请求）
vivo Pulsar 万亿级消息处理实践（3）-KoP指标异常修复
作者：vivo互联网大数据团队-ChenJianbo本文是《vivoPulsar万亿级消息处理实践》系列文章第3篇。Pulsar是Apache基金会的开源分布式流处理平台和消息中间件，它实现了Kafka的协议，可以让使用KafkaAPI的应用直接迁移至Pulsar，这使得Pulsar在Kafka生态系统中更加容易被接受和使用。KoP提供了从Kafka到Pulsar的无缝转换，用户可以使用Kafka
kafka 每条消息只会保存到某一个分区 scan724 kafka
也就是说Kafka的消息组织方式实际上是三级结构：主题-分区-消息。主题下的每条消息只会保存在某一个分区中，而不会在多个分区中被保存多份。官网上的这张图非常清晰地展示了Kafka的三级结构，如下所示其实分区的作用就是提供负载均衡的能力，或者说对数据进行分区的主要原因，就是为了实现系统的高伸缩性（Scalability）。不同的分区能够被放置到不同节点的机器上，而数据的读写操作也都是针对分区这个粒度
Kafka的优势有哪些？经常应用在哪些场景？
Kafka的优势有哪些？经常应用在哪些场景？Kafka的优势比较多如多生产者无缝地支持多个生产者、多消费者、基于磁盘的数据存储、具有伸缩性、高性能轻松处理巨大的消息流。多用于开发消息系统，网站活动追踪、日志聚合、流处理等方面。今天我们一起来学习Kafka的相关知识吧！一、Kafka的优势有哪些？1.多生产者可以无缝地支持多个生产者，不论客户端在使用单个主题还是多个主题。2.多消费者支持多个消费者从
kafka 收不到消息_Kafka 常见问题汇总 weixin_39554434 kafka 收不到消息
Kafka常见问题汇总1.Kafka如何做到高吞吐、低延迟的呢？这里提下Kafka写数据的大致方式：先写操作系统的页缓存(PageCache),然后由操作系统自行决定何时刷到磁盘。因此Kafka达到高吞吐、低延迟的原因主要有以下4点：页缓存是在内存中分配的，所以消息写入的速度很快。Kafka不必和底层的文件系统进行交互，所有繁琐的I/O操作都由操作系统来处理。Kafka采用追加写的方式，避免了磁盘
kafka partition分配_走近kafka-Partition分配与消息可靠性编辑部小李 kafka partition分配
Kafka的高可用源于其多个副本(replication)。拥有多个副本，那么带来的问题就是数据怎么同步。我们都知道数据是存放在partition物理目录下的文件里面。通过前面几节的介绍，我们也知道消息过来后直接跟partitionleader交互，然后由leader进行数据同步。由于partition的replication机制，在kafka看来partition不分leader和followe
Kafka最新版本（3.x/4.x）性能优化
在Kafka的最新版本（截至2025年，主流为3.x/4.x）中，性能优化需要从集群架构、Broker配置、Topic设计、生产者/消费者调优、存储层优化等多个维度综合考虑。以下是基于最新特性的核心优化措施：一、集群架构优化合理规划Broker数量与分布每个Broker承载的分区数：推荐每个Broker管理100-500个分区（超大规模集群可放宽至1000个），避免单Broker分区过多导致负载不
ClickHouse高频面试题野老杂谈数据库
ClickHouse高频面试题1、简单介绍一下ClickHouse2、ClickHouse具有哪些特点3、ClickHouse作为一款高性能OLAP数据库，存在哪些不足4、ClickHouse有哪些表引擎5、介绍下Log系列表引擎应用场景共性特点不支持6、简单介绍下MergeTree系列引擎7、简单介绍下外部集成表引擎ODBCJDBCMySQLHDFSKafkaRabbitMQ8、ClickHou
1-Kafka介绍及常见应用场景 sql2008help kafka 分布式
Kafka介绍ApacheKafka是一个开源的分布式流处理平台，最初由LinkedIn开发，后捐赠给Apache软件基金会。它被设计用于高吞吐量、低延迟、可水平扩展地处理实时数据流。官网地址是：https://kafka.apache.org/以下是Kafka的核心介绍：核心概念消息系统(MessagingSystem)Kafka充当生产者和消费者之间的消息中间件，解耦系统，确保可靠的数据传递。
kafka单个生产者向具有多个partition的topic写数据（写入分区策略）
最近碰到生产环境现象一个flink程序单并行度（一个生产者），对应topic为8分区。每个分区都能消费到生产出的数据。整理知识点如下生产者写入消息到topic，kafka将依据不同的策略将数据分配到不同的分区中1.轮询分区策略2.随机分区策略3.按key分区分配策略4.自定义分区策略1.1轮询分区策略默认的策略，也是使用最多的策略，可以最大限度的保证所有消息平均分配到分区里面如果在生产消息时，ke
kafka系列 ---安装kafka+SASL配置心有栖 kafka专栏 kafka java
文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言这篇主要讲如何安装kafka+配置SASL安全验证，之前网上一些文章要么没有配置SASL，要么本身存在一些问题，这里主要把正确的配置方案放上来，后续会讲讲遇到的一些问题和该如何解决。一、安装kafka官网的quickstart有最新安装教程，想安装最新版可以去官网，目前我使用的是kafka2.6.0。这里的所有操作都是在
Kafka 数据倾斜原因、影响与权威解决方案
一、数据倾斜的概念在Kafka环境中，数据倾斜是指数据在主题（Topic）的各个分区（Partition）之间分布不均匀的状况。理想情况下，分区设计期望数据能在各个分区均衡分布，如此一来，消费者组内的消费者便可均衡地从不同分区消费数据，从而充分利用系统资源实现高效并行处理。但当数据倾斜发生时，部分分区会承载大量数据，而其他分区的数据量则相对较少。二、数据倾斜产生的原因（一）生产者端原因分区键（Pa
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修