Kafka快速入门系列(5) | Kafka的工作流程及文件存储机制

  本篇博主带来的是Kafka的工作流程及文件存储机制。

目录

  • 一. Kafka的工作流程
  • 二. Kafka文件的存储机制


一. Kafka的工作流程

  • 1. Kafka开始部分
    Kafka快速入门系列(5) | Kafka的工作流程及文件存储机制_第1张图片
  • 2. 创建topic
    Kafka快速入门系列(5) | Kafka的工作流程及文件存储机制_第2张图片
  • 3.生产者往每一个partition-leader,其中所发数据为一批一批的发送(提高效率)
    follower为leader的备份,当leader挂掉的时候,follower替代挂掉的leader
    follower需要向对应的leader备份数据
    Kafka快速入门系列(5) | Kafka的工作流程及文件存储机制_第3张图片
    Kafka快速入门系列(5) | Kafka的工作流程及文件存储机制_第4张图片Kafka快速入门系列(5) | Kafka的工作流程及文件存储机制_第5张图片
  • 4. 消费者向leader读取数据
    Kafka快速入门系列(5) | Kafka的工作流程及文件存储机制_第6张图片
  • 5. 如果consumer出现故障,通过offset(偏移量)可进行恢复
    Kafka快速入门系列(5) | Kafka的工作流程及文件存储机制_第7张图片
      Kafka中消息是以topic进行分类的,生产者生产消息,消费者消费消息,都是面向topic的。
      topic是逻辑上的概念,而partition是物理上的概念,每个partition对应于一个log文件,该log文件中存储的就是producer生产的数据。Producer生产的数据会被不断追加到该log文件末端,且每条数据都有自己的offset。消费者组中的每个消费者,都会实时记录自己消费到了哪个offset,以便出错恢复时,从上次的位置继续消费。

二. Kafka文件的存储机制

Kafka快速入门系列(5) | Kafka的工作流程及文件存储机制_第8张图片
  由于生产者生产的消息会不断追加到log文件末尾,为防止log文件过大导致数据定位效率低下,Kafka采取了分片和索引机制,将每个partition分为多个segment。每个segment对应两个文件——“.index”文件和“.log”文件。这些文件位于一个文件夹下,该文件夹的命名规则为:topic名称+分区序号。例如,first这个topic有三个分区,则其对应的文件夹为first-0,first-1,first-2。

00000000000000000000.index
00000000000000000000.log
00000000000000170410.index
00000000000000170410.log
00000000000000239430.index
00000000000000239430.log

  index和log文件以当前segment的第一条消息的offset命名。下图为index文件和log文件的结构示意图。
Kafka快速入门系列(5) | Kafka的工作流程及文件存储机制_第9张图片
 &emsp“.index”文件存储大量的索引信息,“.log”文件存储大量的数据,索引文件中的元数据指向对应数据文件中message的物理偏移地址。

  本次的分享就到这里了,


11

   看 完 就 赞 , 养 成 习 惯 ! ! ! \color{#FF0000}{看完就赞,养成习惯!!!} ^ _ ^ ❤️ ❤️ ❤️
  码字不易,大家的支持就是我坚持下去的动力。点赞后不要忘了关注我哦!

你可能感兴趣的:(Hadoop,#,Kafka)