Kafka 的消息数据存储结构如上图所示,基于「主题 + 分区 + 副本 + 分段 + 索引」的结构。
Kafka 消息是以主题为单位进行归类,各个主题之间是彼此独立的,互不影响。
每个主题又可以分为一个或多个分区。
每个分区各自存在一个记录消息数据的日志文件。
然后每个分区又被划分成了多个 LogSegment,相当于一个巨型文件被平均分割为一些相对较小的文件,这样也便于消息的查找、维护和清理。
加入我们有一个主题tp-demo-01,并且有6个分区,查看日志如下:
可以看到对应的每个Parition下存在一个[Topic-Parition] 命名的消息日志文件夹。
在理想情况下,数据流量分摊到各个 Parition 中,实现了负载均衡的效果。
同时在分区日志文件中,你会发现很多类型的文件,比如: .index、.timestamp、.log、.snapshot 等。如下:
一个LogSegment中有很多后缀文件,其中最重要的是.index
、.timestamp
、.log
三种类型文件。
文件后缀名 | 说明 |
---|---|
.index | 偏移量索引文件 |
.timestamp | 时间戳索引文件 |
.log | 日志文件 |
.snapshot | 快照文件 |
.deleted | 日志删除任务用来标记已删除的日志分段文件 |
.cleaned | 日志清理时临时文件 |
.swap | 日志压缩之后的临时文件 |
leader-epoch-checkpoint | 存储leader epoch信息的文件。Leader epoch是一个单调递增的正整数,用于标识leader的版本。每当leader变更时,epoch版本都会加1。 |
每个LogSegment 的大小可以在server.properties 中log.segment.bytes=1073741824
(设置分段大小,默认是1G)选项进行设置。log文件默认写满1G后,会进行log rolling形成一个新的组合来记录消息。
文件命名规则:一组index+log+timeindex文件的名字是一样的,当前文件的名字第一条message的offset,比如00000000000000345678.log文件,他中的第一条消息的offset为345679, 最大为64位的long,不足位数补0。
偏移量索引文件 .index 用于记录消息偏移量与物理地址之间的映射关系。
Kafka 中的偏移量索引文件是以稀疏索引的方式构造消息的索引,并不保证每一个消息在索引文件中都有对应的索引项。
每个索引项共占用 8 个字节,索引文件的数据结构则是由相对offset和position组成:
由于保存的是相对第一个消息的相对offset,只需要4byte就可以了,可以节省空间,在实际查找后还需要计算回实际的offset,这对用户是透明的。
注意:offset 与 position 没有直接关系,因为会删除数据和清理日志。
稀疏索引,索引密度不高,但是offset有序,二分查找的时间复杂度为O(lgN),如果从头遍历时间复杂度是O(N)。
示意图如下:
偏移量索引由相对偏移量和物理地址组成:
可以通过如下命令解析 .index 文件:
kafka-run-class.sh kafka.tools.DumpLogSegments --files 00000000000000000000.index --print-data-log | head
在偏移量索引文件中,索引数据都是顺序记录 offset。每当写入一定量的消息时,偏移量索引文件和时间戳索引文件分别增加一个偏移量索引项和时间戳索引项。通过修改 log.index.interval.bytes
的值,改变索引项的密度。
时间戳索引文件则根据时间戳查找对应的偏移量。它的作用是可以让用户查询某个时间段内的消息,它一条数据的结构是时间戳(8byte)+相对offset(4byte),如果要使用这个索引文件,首先需要通过时间范围,找到对应的相对offset,然后再去对应的index文件找到position信息,然后才能遍历log文件,它也是需要使用上面说的index文件的。
也就是通过时间戳方式进行查找消息,需要通过查找时间戳索引和偏移量索引两个文件。
但是由于producer生产消息可以指定消息的时间戳,这可能将导致消息的时间戳不一定有先后顺序,因此尽量不要生产消息时指定时间戳。
时间戳索引文件中每个追加的索引时间戳必须大于之前追加的索引项,否则不予追加。在 Kafka 0.11.0.0 以后,消息信息中存在若干的时间戳信息。如果 broker 端参数 log.message.timestamp.type 设置为 LogAppendTIme ,那么时间戳必能保持单调增长。反之如果是 CreateTime 则无法保证顺序。
时间戳索引索引格式:前八个字节表示时间戳,后四个字节表示偏移量:
消息封装为Record,追加到log日志文件末尾,采用的是顺序写模式。
对于一个成熟的消息中间件来说,日志格式不仅影响功能的扩展,还关乎性能维度的优化。所以随着 Kafka 的迅猛发展,其日志格式也在不断升级改进中,Kafka 的日志格式总共经历了3个大版本:V0,V1和V2版本。
1)V0 版本
在 Kafka 0.10.0 之前的版本都是采用这个版本的日志格式的。
有如下几部分组成:
V0 版本的消息最小为 14 字节,小于 14 字节的消息会被 Kafka 认为是非法消息。
2)V1 版本
随着 Kafka 版本的不断迭代发展, 用户发现 V0 版本的日志格式由于没有保存时间信息导致 Kafka 无法根据消息的具体时间进行判断,在进行清理日志的时候只能使用日志文件的修改时间导致可能会被误删。
从 V0.10.0 开始到 V0.11.0 版本之间所使用的日志格式版本为 V1,比 V0 版本多了一个 timestamp 字段,表示消息的时间戳。如下图所示:
timestamp 字段作用:
V1 版本的消息最小为 22 字节,小于 22 字节的消息会被 Kafka 认为是非法消息。
3)V0、V1 版本的设计缺陷
通过上面我们分析画出的 V0、V1 版本日志格式,我们会发现它们在设计上的一定的缺陷,比如:
4)V2 版本
针对 上面我们分析的 关于 V0、V1 版本日志格式的缺陷,Kafka 在 0.11.0.0 版本对日志格式进行了大幅度重构,使用可变长度类型解决了空间使用率低的问题,增加了消息总长度字段,使用增量的形式保存时间戳和位移,并且把一些字段统一抽取到 RecordBatch 中。
从以上图可以看出,V2 版本的消息批次(RecordBatch),相比 V0、V1 版本主要有以下变动:
综上可以看出 V2 版本日志格式主要是通过可变长度提高了消息格式的空间使用率,并将某些字段抽取到消息批次(RecordBatch)中,同时消息批次可以存放多条消息,从而在批量发送消息时,可以大幅度地节省了磁盘空间。
示例:假如有00000000000000000000.index
和00000000000001000000.index
两个索引文件,查找找 offset
值为 1002490的消息。
00000000000001000000.index
文件中**注意:**可以利用offset在partition中查找,不能在整个topic中查找的,因为offset只保证在partition中唯一、有序。
注意:timestamp文件中的 offset 与 index 文件中的 relativeOffset 不是一一对应的,因为数据的写入是各自追加。
示例:查找时间戳为1557554753430开始的消息。
查找该时间戳应该在哪个日志分段中。将1557554753430和每个日志分段中最大时间戳largestTimeStamp逐一对比,直到找到不小于1557554753430所对应的日志分段。
日志分段中的largestTimeStamp的计算是:先查询该日志分段所对应时间戳索引文件,找到最后一条
索引项,若最后一条索引项的时间戳字段值大于0,则取该值,否则取该日志分段的最近修改时间。
查找该日志分段的偏移量索引文件,查找该偏移量对应的物理地址。
后面过程与偏移量索引文件查找相同了。
配置 | 默认值 | 说明 |
---|---|---|
log.index.interval.bytes | 4096(4K) | 增加索引项字节间隔密度,会影响索引文件中的区间密度和查询效率 |
log.segment.bytes | 1073741824(1G) | 日志文件最大值 |
log.roll.ms | 当前日志分段中消息的最大时间戳与当前系统的时间戳的差值允许的最大范围,单位毫秒 | |
log.roll.hours | 168(7天) | 当前日志分段中消息的最大时间戳与当前系统的时间戳的差值允许的最大范围,单位小时 |
log.index.size.max.bytes | 10485760(10MB) | 触发偏移量索引文件或时间戳索引文件分段字节限额 |
上面的配置项如何影响文件切分?
当满足如下几个条件中的其中之一,就会触发文件的切分:
第4种情况为什么是Integer.MAX_VALUE?
4 个字节刚好对应 Integer.MAX_VALUE ,如果大于 Integer.MAX_VALUE,那么索引的相对位置就不能用4个字节表示了。
索引文件切分过程:
索引文件会根据 log.index.size.max.bytes 值进行预先分配空间,即文件创建的时候就是最大值。当真正的进行索引文件切分的时候,才会将其裁剪到实际数据大小的文件。这一点是跟日志文件有所区别的地方。其意义降低了代码逻辑的复杂性。
Kafka 将消息存储到磁盘中,随着写入数据不断增加,磁盘占用空间越来越大,为了控制占用空间就需要对消息做一定的清理操作。从上面 Kafka 存储日志结构分析中每一个分区副本(Replica)都对应一个 Log,而 Log 又可以分为多个日志分段(LogSegment),这样就便于 Kafka 对日志的清理操作。
Kafka 提供两种日志清理策略:
Kafka 提供 log.cleanup.policy
参数进行相应配置,默认值: delete
,还可以选择compact
。如果想要同时支持两种清理策略, 可以直接将 log.cleanup.policy 参数设置为delete,compact
。
主题级别的配置项是 cleanup.policy 。
Kafka 的日志管理器(LogManager)中有一个专门的日志清理任务通过周期性检测和删除不符合条件的日志分段文件(LogSegment),这里我们可以通过 Kafka Broker 端的参数 log.retention.check.interval.ms
来配置,用于设置Kafka检查数据是否过期的间隔,默认值为300000,即5分钟。
另外,参数 log.retention.hours
、log.retention.minutes
、log.retention.ms
用于设置Kafka中数据保存的时间。如果超过该设定值,就需要进行删除。
按照log.retention.ms > log.retention.minutes > log.retention.hours优先级来设置,默认情况只会配置 log.retention.hours
参数,值为168,即为7天。
Kafka 依据日志分段中最大的时间戳进行定位。首先要查询该日志分段所对应的时间戳索引文件,查找时间戳索引文件中最后一条索引项,若最后一条索引项的时间戳字段值大于 0,则取该值,否则取最近修改时间。
为什么不直接选最近修改时间呢?
因为日志文件可以有意无意的被修改,并不能真实的反应日志分段的最大时间信息。
删除过程
如果活跃的日志分段中也存在需要删除的数据时?
Kafka 会先切分出一个新的日志分段作为活跃日志分段,该日志分段不删除,删除原来的日志分段。先腾出地方,再删除。
日志删除任务会周期检查当前日志大小是否超过设定的阈值(retentionSize) 来寻找可删除的日志段文件集合(deletableSegments)。
其中 retentionSize 这里我们可以通过 Kafka Broker 端的参数log.retention.bytes来设置, 默认值为-1,即无穷大。
这里需要注意的是 log.retention.bytes 设置的是Log中所有日志文件的大小,而不是单个日志段的大小。单个日志段可以通过参数 log.segment.bytes 来设置,默认大小为1G。
删除过程
根据日志分段的下一个日志分段的起始偏移量是否大于等于日志文件的起始偏移量,若是,则可以删除此日志分段。
注意:日志文件的起始偏移量并不一定等于第一个日志分段的基准偏移量,存在数据删除,可能与之相等的那条数据已经被删除了。
删除过程
日志压缩是Kafka的一种机制,可以提供较为细粒度的记录保留,而不是基于粗粒度的基于时间的保留。对于具有相同的Key,而数据不同,只保留最后一条数据,前面的数据在合适的情况下删除。
日志压缩特性,就实时计算来说,可以在异常容灾方面有很好的应用途径。比如,我们在Spark、Flink中做实时计算时,需要长期在内存里面维护一些数据,这些数据可能是通过聚合了一天或者一周的日志得到的,这些数据一旦由于异常因素(内存、网络、磁盘等)崩溃了,从头开始计算需要很长的时间。一个比较有效可行的方式就是定时将内存里的数据备份到外部存储介质中,当崩溃出现时,再从外部存储介质中恢复并继续计算。
使用日志压缩来替代这些外部存储有哪些优势及好处呢?这里为大家列举并总结了几点:
想要使用日志压缩,设置参数主题的 cleanup.policy 需要设置为compact
。
Kafka的后台线程会定时将Topic遍历两次:
日志压缩允许删除,除最后一个key之外,删除先前出现的所有该key对应的记录。在一段时间后从日志中清理,以释放空间。
注意:日志压缩与key有关,确保每个消息的key不为null。
压缩是在Kafka后台通过定时重新打开Segment来完成的,Segment的压缩细节如下图所示:
日志压缩可以确保:
min.compaction.lag.ms
属性来保证消息在被压缩之前必须经过的最短时间。也就是说,它为每个消息在(未压缩)头部停留的时间提供了一个下限。可以使用Topic的max.compaction.lag.ms
属性来保证从收到消息到消息符合压缩条件之间的最大延时log.cleaner.delete.retention.ms
短的时间内到达日志的头部,则会看到已删除记录的所有delete标记。保留时间默认是24小时。默认情况下,启动日志清理器,若需要启动特定Topic的日志清理,请添加特定的属性。配置日志清
理器,这里为大家总结了以下几点:
log.cleanup.policy
设置为 compact ,Broker的配置,影响集群中所有的Topic。log.cleaner.min.compaction.lag.ms
,用于防止对更新超过最小消息进行压缩,如果没有设置,除最后一个Segment之外,所有Segment都有资格进行压缩log.cleaner.max.compaction.lag.ms
,用于防止低生产速率的日志在无限制的时间内不压缩。Kafka的日志压缩原理并不复杂,就是定时把所有的日志读取两遍,写一遍,而CPU的速度超过磁盘完全不是问题,只要日志的量对应的读取两遍和写入一遍的时间在可接受的范围内,那么它的性能就是可以接受的。
Kafka利用分段、追加日志的方式,在很大程度上将读写限制为顺序I/O(sequential I/O),这在大多数的存储介质上都很快。
人们普遍错误地认为硬盘很慢。然而,存储介质的性能,很大程度上依赖于数据被访问的模式。同样在一块普通的7200 RPM SATA硬盘上,随机I/O(random I/O)与顺序I/O相比,随机I/O的性能要比顺序I/O慢3到4个数量级。
此外,现代的操作系统提供了预先读和延迟写的技术,这些技术可以以块为单位,预先读取大量数据,并将较小的逻辑写操作合并成较大的物理写操作。
kafka高性能,是多方面协同的结果,包括宏观架构、分布式partition存储、ISR数据同步、以及“无所不用其极”的高效利用磁盘/操作系统特性。
零拷贝并不是不需要拷贝,而是减少不必要的拷贝次数。通常是说在IO读写过程中。
nginx的高性能也有零拷贝的身影。
传统IO
比如:读取文件,socket发送
传统方式实现:先读取、再发送,实际经过1~4四次copy。
实际IO读写,需要进行IO中断,需要CPU响应中断(内核态到用户态转换),尽管引入DMA(Direct Memory Access,直接存储器访问)来接管CPU的中断请求,但四次copy是存在“不必要的拷贝”的。
Kafka IO
Kafka IO 实际上并不需要第二个和第三个数据副本。数据可以直接从读缓冲区传输到套接字缓冲区。
kafka的两个过程:
数据落盘通常都是非实时的,Kafka的数据并不是实时的写入硬盘,它充分利用了现代操作系统分页存储来利用内存提高I/O效率。
kafka零拷贝原理
磁盘数据通过DMA(Direct Memory Access,直接存储器访问)拷贝到内核态 Buffer直接通过 DMA 拷贝到 NIC Buffer(socket buffer),无需 CPU 拷贝。
除了减少数据拷贝外,整个读文件到网络发送由一个 sendfile
调用完成,整个过程只有两次上下文切换,因此大大提高了性能。
Java NIO对sendfile的支持就是FileChannel.transferTo()/transferFrom()
和fileChannel.transferTo( position, count, socketChannel)
;
把磁盘文件读取OS内核缓冲区后的fileChannel
,直接转给socketChannel
发送;底层就是sendfile。消费者从broker读取数据,就是由此实现。
具体来看,Kafka 的数据传输通过 TransportLayer
来完成,其子类 PlaintextTransportLayer
通过Java NIO 的 FileChannel
的 transferTo
和 transferFrom
方法实现零拷贝。
kafka IO过程如下:
图片来源:https://mp.weixin.qq.com/s/CCAP8n0mTCrUT-NzOAacCg
页缓存是操作系统实现的一种主要的磁盘缓存,以此用来减少对磁盘 I/O 的操作。具体来说,就是把磁盘中的数据缓存到内存中,把对磁盘的访问变为对内存的访问。
Kafka接收来自socket buffer的网络数据,应用进程不需要中间处理、直接进行持久化时。可以使用mmap内存文件映射。
什么是mmap?
Memory Mapped Files
简称mmap,简单描述其作用就是:将磁盘文件映射到内存, 用户通过修改内存就能修改磁盘文件。
它的工作原理是直接利用操作系统的Page来实现磁盘文件到物理内存的直接映射。完成映射之后你对物理内存的操作会被同步到硬盘上(操作系统在适当的时候)。
通过mmap,进程像读写硬盘一样读写内存(当然是虚拟机内存)。使用这种方式可以获取很大的I/O提升,省去了用户空间到内核空间复制的开销。
mmap也有一个很明显的缺陷:不可靠,写到mmap中的数据并没有被真正的写到硬盘,操作系统会在程序主动调用flush的时候才把数据真正的写到硬盘。
Kafka提供了一个参数 producer.type
来控制是不是主动flush;如果Kafka写入到mmap之后就立即flush然后再返回Producer叫同步(sync);写入mmap之后立即返回Producer不调用flush叫异步(async)。
Java NIO对文件映射的支持
Java NIO,提供了一个MappedByteBuffer
类可以用来实现内存映射。
MappedByteBuffer只能通过调用FileChannel
的map()
取得,再没有其他方式。
FileChannel.map()是抽象方法,具体实现是在 FileChannelImpl.map()可自行查看JDK源码,其map0()方法就是调用了Linux内核的mmap的API。
使用 MappedByteBuffer类要注意的是:mmap的文件映射,在full gc时才会进行释放。当close时,需要手动清除内存映射文件,可以反射调用sun.misc.Cleaner
方法。
kafka使用页缓存读取过程
当一个进程准备读取磁盘上的文件内容时:
如果一个进程需要将数据写入磁盘:
总结
对一个进程而言,它会在进程内部缓存处理所需的数据,然而这些数据有可能还缓存在操作系统的页缓存中,因此同一份数据有可能被缓存了两次。并且,除非使用Direct I/O的方式, 否则页缓存很难被禁止。
当使用页缓存的时候,即使Kafka服务重启, 页缓存还是会保持有效,然而进程内的缓存却需要重建。这样也极大地简化了代码逻辑,因为维护页缓存和文件之间的一致性交由操作系统来负责,这样会比进程内维护更加安全有效。
Kafka中大量使用了页缓存,这是 Kafka 实现高吞吐的重要因素之一。
消息先被写入页缓存,由操作系统负责刷盘任务。
Kafka速度快是因为:
参考:https://mp.weixin.qq.com/s/kbUZf1ys3JZXyr_2zVeFcA
https://mp.weixin.qq.com/s/kbUZf1ys3JZXyr_2zVeFcA
https://mp.weixin.qq.com/s/aVqtYkjRj-wzak1emY3Yng