Kafka基础入门(1)

本文为读书笔记
文章内容来自:深入理解Kafka
Kafka开源之初使用Scala语言编写的客户端
从Kafka 0.9.x版本开始推出的使用 Java 语言编写的客户端

文章目录

  • 1. 基本概念(重要)
    • 三个身份:
    • 主题(Topic)与分区(Partition):
    • 多副本机制:
    • AR=ISR+OSR
    • HW和LEO:
    • ISR集合理解:
  • 2. 安装与配置

1. 基本概念(重要)

三个身份:

(1)Producer:生产者,也就是发送消息的一方。生产者负责创建消息,然后将其投递到Kafka中。

(2)Consumer:消费者,也就是接收消息的一方。消费者连接到Kafka上并接收消息,进而进行相应的业务逻辑处理。

(3)Broker:服务代理节点。对于Kafka而言,Broker可以简单地看作一个独立的Kafka服务节点或Kafka服务实例。大多数情况下也可以将Broker看作一台Kafka服务器,前提是这台服务器上只部署了一个Kafka实例。一个或多个Broker组成了一个Kafka集群。一般而言,我们更习惯使用首字母小写的broker来表示服务代理节点。


主题(Topic)与分区(Partition):

Kafka中的消息以主题为单位进行归类,生产者负责将消息发送到特定的主题(发送到Kafka集群中的每一条消息都要指定一个主题),而消费者负责订阅主题并进行消费。

主题是一个逻辑上的概念,它还可以细分为多个分区,一个分区只属于单个主题,很多时候也会把分区称为主题分区(Topic-Partition)。

分区在存储层面可以看作一个可追加的日志(Log)文件,消息在被追加到分区日志文件的时候都会分配一个特定的偏移量(offset)offset是消息在分区中的唯一标识,Kafka通过它来保证消息在分区内的顺序性,不过offset并不跨越分区,也就是说,Kafka保证的是分区有序而不是主题有序


一个主题可以横跨多个broker,以此来提供比单个broker更强大的性能。
Kafka基础入门(1)_第1张图片

每一条消息被发送到broker之前,会根据分区规则选择存储到哪个具体的分区。
如果一个主题只对应一个文件,那么这个文件所在的机器 I/O 将会成为这个主题的性能瓶颈,而分区解决了这个问题。
即最好把不同分区放到不同broker上; 那么可以下定义:分区==broker


多副本机制:

同一分区的不同副本中保存的是相同的消息(在同一时刻,副本之间并非完全一样),副本之间是“一主多从”的关系,其中leader负责处理读写请求,follower副本只负责与leader副本的消息同步。

副本处于不同的broker中,当leader出现故障时,从follower副本中重新选举新的leader对外提供服务。Kafka通过多副本机制实现了故障的自动转移,当Kafka集群中某个broker失效时仍然能保证服务可用。

生产者和消费者只与leader进行交互,而follower副本只负责消息的同步

Kafka基础入门(1)_第2张图片
如何保证消息不丢失:

Consumer 使用拉(Pull)模式从服务端拉取消息,并且保存消费的具体位置,当消费者宕机后恢复上线时可以根据之前保存的消费位置重新拉取需要的消息进行消费;


AR=ISR+OSR

分区中的所有副本统称为AR(Assigned Replicas)。

所有与leader保持一定程度同步的副本(包括leader在内)组成ISR(In-Sync Replicas),ISR集合是AR集合中的一个子集。

消息会先发送到leader,然后follower副本才能从leader中拉取消息进行同步,同步期间内follower副本相对于leader而言会有一定程度的滞后。

与leader副本同步滞后过多的副本(不包括leader)组成OSR(Out-of-Sync Replicas)

AR=ISR+OSR

leader负责维护和跟踪ISR集合中所有follower副本的滞后状态,当follower副本落后太多或失效时,leader会把它从ISR集合中剔除。如果OSR集合中有follower副本“追上”了leader,那么leader副本会把它从OSR集合转移至ISR集合。默认情况下,当leader发生故障时,只有在ISR集合中的副本才有资格被选举为新的leader,而在OSR集合中的副本则没有任何机会


HW和LEO:

HW是High Watermark的缩写,俗称高水位,它标识了一个特定的消息偏移量(offset),消费者只能拉取到这个offset之前的消息。

Kafka基础入门(1)_第3张图片
LEO是Log End Offset的缩写,它标识当前日志文件中下一条待写入消息的offset

分区ISR集合中的每个副本都会维护自身的LEO,而ISR集合中最小的LEO即为分区的HW,对消费者而言只能消费HW之前的消息。


ISR集合理解:

Kafka基础入门(1)_第4张图片

Kafka基础入门(1)_第5张图片
故在Follower在拉取同步的时候,消费者只能读取到HW之前的消息;

Kafka基础入门(1)_第6张图片
同步过程中,如果Follower都同步到了4,那么消费者就可以读取到1-4的消息。同时HW指向5。
Kafka基础入门(1)_第7张图片
Follower全部同步完成,最终LEO,HW都指向5。

同步复制要求所有能工作的 follower 副本都复制完,这条消息才会被确认为已成功提交,这种复制方式极大地影响了性能。而在异步复制方式下,follower副本异步地从leader副本中复制数据,数据只要被leader副本写入就被认为已经成功提交。在这种情况下,如果follower副本都还没有复制完而落后于leader副本,突然leader副本宕机,则会造成数据丢失。Kafka使用的这种ISR的方式则有效地权衡了数据可靠性和性能之间的关系。

2. 安装与配置

1.JDK的安装与配置
2.ZooKeeper安装与配置
Kafka通过ZooKeeper来实施对元数据信息的管理,包括集群、broker、主题、分区等内容。
3.Kafka的安装与配置

kafka官网
下载地址
Kafka基础入门(1)_第8张图片
闲麻烦拉个docker测试学习

javaclient:

<dependency>
    <groupId>org.apache.kafka</groupId>
    <artifactId>kafka-clients</artifactId>
    <version>2.1.0</version>
</dependency>

你可能感兴趣的:(消息队列,kafka,java)