kafka的关键组成

大部分内容是翻译至Kafka The Definitive Guide,有翻译不好的地方请见谅,想深入学习的小伙伴,建议去看一下这本书,因为理解问题翻译错误的地方希望指出,我会及时改进。
KEY TEAMS

Messages and Batches:

  • kafka内的数据单位称为message。 message类似于一行或一条记录.
  • kafka所关心的message数据只是一些简单的byte数组,kafka并不关心你的数据的格式与意义。
  • key也是一个byte数组,跟message一样,它对于kafka而言也并没有什么意义.(key是用来路由的)
  • 为了更好的传输效率, messages 的写入一都是以batch的方式进行。
  • 一个batchj就是一个message的集合,一个batch中的所有message会被放到同一个topic中的partition中。
  • batch通常还会进行压缩,这样也更加有效的提高了数据传输与储存。

Schemas:

  • 对于kafka而言message就是没有意义的byte数组,Schema就能提供额外的结构与模式加强消息内容,方便理解。
  • Avro,Json,XML,Customer,etc

Topics and Partitions

  • kafka的tpoic就是message的分类。
  • 对于topic的最贴近的比喻就是一个数据库的表或者是一个文件系统的文件夹。
  • topic被分解成了一个或者多个partition
  • messages以附加方式写入,并从头到尾按顺序读取。
  • 一个topic通常被分成了多个partition,但是不能保证按照写入时间的顺序排序。但是一个可以。
    (需要严格读取topic消息顺序的时候,只使用一个partition)


    kafka的关键组成_第1张图片
    image

Producers and Consumers

  • kafka客户是就是系统的用户,有两种基本类型:生产者和消费者。
  • Producers创建消息,在其他的发布订阅系统中,被称为发布在或者写入者。
  • 一般而言,一个message会被写入到一个特定的topic中。
  • Consumers阅读消息。在其他发布/订阅系统中,这些客户可能被称为订阅者或读取者。
  • Consumers订阅一个或多个topic,并按照其produce顺序读取消息。
  • Consumers通过跟踪消息的offset来跟踪它已经消费的消息。

Offset

  • offset是元数据中的一个(一个不断增加的整数值)kafka在每条消息生成时都会添加这个元数据。
  • 每一个message在所在的partition中都有着唯一的offset,通过zookeeper或者kafka本身存贮着这个最后消费的offset,保证在Consumer在宕机或者重启之后不会丢失其读到的位置。

Consumer Group

  • 在一个consumer group中工作的多个consumer,它们共同的去消费一个topic,并且确保了每个partition只有一个consumer可以进行消费。
    (一个consumer group中的consumer不能消费同一个partition,但是一个consumer可以去消费多个partition)


    kafka的关键组成_第2张图片
    image

Brokers and Clusters

  • 一个kafak服务就是一个broker。
  • 一个broker接收到producer的message后,为它们分配offset,并且将它们储存到硬盘上。
  • kafka broker 是cluster的运作的一部分。在一个cluster的多个broker中,其中的一个broker通过算法选举称为了一个cluster的controller。(从活动的成员中自动选举)
    (多个Partition时,只有Partition的learder才能进对于该partiotion的读写,其余的都是副本而已)


    kafka的关键组成_第3张图片
    image

你可能感兴趣的:(kafka的关键组成)