kafka存储

1.专用名词

  • 分区 日志(Log)
    不考虑多副本的情况,一个分区对应一个日志
    Log 对应一个- 的文件名

  • 日志 日志分段(LogSegment)
    Log和LogSegment不是纯粹物理意义上的概念。
    Log在物理上以文件夹形式存储
    LogSegment对应于磁盘上的一个日志文件和两个索引文件,以及其他可能的文件(比如事物索引文件)

  • activeSegment
    表示当前活跃的LogSegment。
    向Log追加消息是顺序的,只有最后一个LogSegment才能执行写入操作;最后一个LogSegment就是activeSegment

  • offset
    偏移量是一个64位的长整形数

  • baseOffset
    基准偏移量,每个LogSegment用来表示第一条消息的offset

2.LogSegment

一个LogSegment包含:以log为后缀的日志文件、偏移量索引文件(以index为后缀)、时间戳索引文件
日志文件、偏移量索引文件以及时间戳索引文件都是根据基准偏移量命名,名称固定为20位数字,没有达到的位数高位用0补充
kafka中的索引文件以稀疏索引 的方式构造消息索引,它并不保证每条消息在索引文件中都有对应的索引项

2.1 偏移量索引文件

它用来建立消息偏移量到物理磁盘地址之间的映射关系,方便快速定位消息所在的物理位置
偏移量索引占用8个字节,高四字节表示relativeOffset(相对偏移量),第四字节表示消息的物理位置
相对偏移量是相对于基准偏移量的,每个LogSegment都有一个baseOffset(基准偏移量)

2.2 时间戳索引文件

根据指定的时间戳来查找对应的偏移量信息
时间戳索引占用12字节,高8字节表示当前日志分段的最大时间戳,低4字节表示时间戳对应的relativeOffset(相对偏移量)

3. kafka V2版本消息结构

kafka存储_第1张图片

4.kafka存储

kafka采用追加的方式在磁盘顺序存储
顺序写磁盘的速度比随机写内存的速度还快
kafka大量使用了页缓存
kafka使用了零拷贝技术,底层通过DMA实现,减少了用户态内核态的切换

你可能感兴趣的:(kafka)