kafka系列-日志存储

kafka中的消息,是以主题进行归类的,每个主题分为一个或多个分区,主题和分区是逻辑上的概念。消息在发送时,会按照规则追加到其中一个分区中。
分区里的每一条消息,都会被分配一个唯一的序列号,也就是偏移量(offset)
分区是逻辑上的概念,往分区追加消息时,其实是写到日志(Log)中,为了防止日志过大,kafka还有日志分段(LogSegment)的概念,Log在物理上是以文件夹的形式存储,每个LogSegment对应于磁盘上的一个日志文件和两个索引文件,以及其他文件。

kafka追加消息是顺序写,由于Log被分成了多个LogSegment,所以只有最后一个LogSegment才能执行写入操作,之前的LogSegment不能写入数据。
为了便于消息的检索,每个.log文件都有对应的两个索引文件:偏移量文件和时间戳索引文件。
偏移量索引文件用来建立消息偏移量到物理地址之间的映射关系,方便快速定位消息所在的物理文件位置,时间戳索引文件则根据指定的时间戳来查找对应的偏移量信息。

kafka存储和缓存消息使用的是磁盘,但是按照我们之前的认知,磁盘的速度并不快,远低于内存,缓存这种存储介质,那kafka为什么会选择用磁盘作为存储介质呢?
kafka系列-日志存储_第1张图片

你可能感兴趣的:(Kafka,Kafka)