Kafka介绍
Kafka是LinkedIn采用scala开发的一个多分区, 多副本并且基于ZooKeeper协调的分布式消息系统, 定位是一个分布式流处理平台
Kafka的主要特点和扮演角色
(1) 消息系统: 消息中间件, 将上下游解耦, 削峰, 缓冲, 把同步的直接调用转换成异步的间接推送,中间通过一个队列在一端承接瞬时的流量洪峰,在另一端平滑地将消息推送出去
(2) 系统存储: kafka将数据存储到磁盘
(3) 流处理平台: Kafka为其他流处理平台提供数据来源,还提供了一个完整的流式处理类库,如窗口,链接,变换,聚合等
基本概念
Kafka体系架构包括若干Producer, 若干Broker, 若干Consumer, 以及一个ZooKeeper集群
(1) ZooKeeper负责管理集群元数据, 控制器选举等操作
(2) Producer将消息发送到Broker
(3) Broker负责把消息存储到磁盘
(4) Consumer负责从Broker订阅并消费消息
Producer
生产者,将消息发送到kafka 的Broker
Broker
服务代理节点,可以看作一个独立的kafka服务节点,或者kafka服务器,将消息存储到磁盘,一个或多个Broker节点组成kafka集群
Consumer
消费者,连接到kafka,从Broker订阅并消费消息,进行业务逻辑处理
Topic
kafka中消息以主题为单位进行归类,生产者把消息发送到特定的主题,每一条消息都要指定一个主题,消费者订阅主题
Partition:
1.一个主题可以有多个分区,一个分区只属于单个主题, 所以也称作主题分区
2.同一个主题下不同分区的包含的消息不同, 每个分区可以追加消息到尾部, 每个分区会分配一个offset作为消息在分区中的唯一标识, 相当于索引, Kafka保证每个分区内消息有序
- 分区可以分布在不同kafka服务器上(broker), 一个主题可以横跨多个broker
- 消息被发送到broker之后, 会根据分区规则选择存储在哪个分区,如果分区设计得合理所有消息都可以均匀分布在不同的分区上.每一个分区在物理上对应一个文件夹
Replica:
1.多副本机制提高容灾能力, 同一分区的不同副本中保存的是相同信息
2.副本之间是一主多从的关系,分别是leader和follower,当leader副本出现故障额时候从follower副本中选举新的leader
- 生产者和消费者只与leader副本进行交互, follower只负责与leader同步,follower副本中的消息相对于leader副本有一定的滞后性
- 由于副本处在不同的broker中,当某个broker失效时仍然能够保证服务可用
一共有4个broker,某个主题有3个分区p1,p2,p3,每个分区有3个副本,其中一个leader副本和2个follower副本
其中kafka的消费者也有容灾能力,采用拉的方式从服务端拉去消息,并且保存消费的具体位置,如果消费者宕机会根据之前的位置重新拉取消息进行消费
AR,ISR,OSR:
- 分区中所有副本统称为AR
- 所有与leader副本保持一定程度同步的副本组成ISR
- ISR集合是AR集合的子集, 消息会先发送到leader副本,然后follower副本从leader副本中拉去消息进行同步
- 与leader副本同步滞后过多的样本重组成OSR,AR=ISR+OSR
- 正常情况下所有follower副本都应该与leader副本保持同步,OSR集合为空
- leader副本负责跟踪ISR集合中所有follower副本的滞后状态,当follower副本落后太多或失效时,leader副本会把它从ISR集合中去除移动到OSR,如果OSR集合中有副本追上了leader副本,那么leader副本会把它从OSR集合转移到ISR集合
- 当leader副本发生故障时,只有ISR集合中的副本有机会被选举为leader
HW和LEO
1.HW是高水位的意思,是一个偏移量offset,消费者只能拉取到这个offset之前的消息
2.HW的作用是保证了所有Broker上面某个唯一偏移量之前的消息是一样,使得消息不立即被消费者消费掉,防止信息丢失
- LEO是当前日志文件中下一条待写入的消息的offset
某分区有三个副本,一个leader两个follower,有消息3和4准备写入leader,再和follower同步
消息3和消息4写入了leader副本后,follower1金额follower2开始拉取消息3和4进行同步
在同步过程中不同follower的同步效率不一样,某一时刻follow1完全跟上了leader,follower2只同步了消息3,此时leader副本的LEO是5,follower1副本的LEO是5,follower2副本的LEO是4,因此HW取最小值LEO是4, 此时消费者只能消费0-3之间的消息
所有副本都成功写入了消息3和消息4,整个分区的HW是5, 因此消费者可以收到offset为4的消息
kafka命令测试
# 查看主题
# -zookeeper 指定了kafka连接的zookeeper服务地址
kafka-topics -list -zookeeper cloudera01:2181/kafka
# 创建一个topic,指定一个分区一个副本
kafka-topics -create -zookeeper cloudera01:2181/kafka -replication-factor 1 -partitions 1 -topic test_gp
# 通过describe查看更多信息
kafka-topics -describe -zookeeper cloudera01:2181/kafka -topic test_gp
#Topic:pira_raw_data PartitionCount:3 ReplicationFactor:1 Configs:
# Topic: pira_raw_data Partition: 0 Leader: 79 Replicas: 79 Isr: 79
# Topic: pira_raw_data Partition: 1 Leader: 77 Replicas: 77 Isr: 77
# Topic: pira_raw_data Partition: 2 Leader: 78 Replicas: 78 Isr: 78
# Partition是topic的分区数,消息中的不同数据存放在不同分区;
# Replicas是副本存放的机器broker.id;
# Leader是消息的主存放位置;
# Isr跟Replicas相同则消息已经存放复制完成,如果不同说明还在存放复制中。
kafka-console-consumer -bootstrap-server cloudera01:9092 -topic test_gp -from-beginning
kafka-console-producer --broker-list cloudera01:9092 --topic test_gp
# 打开一个shell终端来订阅topic的消息
# bootstrap-server 指定了连接kafka集群的地址
# 表示从 latest 位移位置开始消费该主题的所有分区消息,即仅消费正在写入的消息
kafka-console-consumer -bootstrap-server cloudera01:9092 -topic test_gp
# 表示从指定主题中有效的起始位移位置开始消费所有分区的消息。
kafka-console-consumer -bootstrap-server cloudera01:9092 -topic test_gp -from-beginning
# 打开一个shell终端用生产者发送消息给主题
kafka-console-producer --broker-list cloudera01:9092 --topic test_gp
kafka java客户端测试
配置maven依赖
org.apache.kafka
kafka-clients
2.0.0
编写kafka生产者,往kafka的test_gp主题写数据
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerRecord;
import java.util.Properties;
public class ProducerFastStart {
public static final String brokerList = "192.168.61.97:9092"; // kafka集群地址
public static final String topic = "test_gp"; // 主题
public static void main(String[] args) {
Properties properties = new Properties();
properties.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
properties.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
properties.put("bootstrap.servers", brokerList);
KafkaProducer producer = new KafkaProducer(properties);
ProducerRecord record = new ProducerRecord(topic, "hello Kafka");
try {
producer.send(record);
System.out.println("消息发送成功");
} catch (Exception e) {
e.printStackTrace();
}
producer.close();
}
}
编写kafka消费者,订阅主题test_gp数据
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import java.time.Duration;
import java.util.Collections;
import java.util.Properties;
public class ConsumerFastStart {
public static final String brokerList = "192.168.61.97:9092";
public static final String topic = "test_gp";
public static final String groupID = "group.gp"; // 设置消费组的名称
public static void main(String[] args) {
Properties properties = new Properties();
properties.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
properties.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
properties.put("bootstrap.servers", brokerList);
properties.put("group.id", groupID);
KafkaConsumer consumer = new KafkaConsumer(properties);
consumer.subscribe(Collections.singletonList(topic));
while (true) {
ConsumerRecords records = consumer.poll(Duration.ofMillis(1000)); // 1秒时间间隔轮询
for (ConsumerRecord record : records) {
System.out.println(record.value());
}
}
}
}
kafka服务端配置
broker configs大部分情况下不要更改, 主要用来有针对性的调优
参数的配置位置在kafka目录下的config/server.properties
zookeeper.connect
broker要连接的Zookeeper地址,必填没有默认值,可以配置为localhost:2181,如果zookeeper有多个节点,可以用逗号隔开
zookeeper.connect=cloudera01:2181,cloudera02:2181,cloudera03:2181/kafka
最佳的实践是加入一个chroot路径,这样可以明确指定chroot裤脚下的节点是Kafka所用,如果不指定chroot默认是zookeeper的根路径
listeners
该参数指定broker监听客户端链接的地址列表,由主机名:端口组成的列表,如果不指定主机名,则表示绑定默认网卡
broker.id
kafka集群中broker的唯一标识,默认是-1
log.dir和log.dirs
kafka把所有的消息都保存到磁盘上,这两个目录用来存放kafka日志文件, log.dirs的优先级比log.dir高, 默认是/tmp/kafka-logs
message.max.bytes
该参数指定broker所能接受的消息的最大值,默认1000012B就是976.6KB,如果生产者发送的消息大于这个值就会抛出异常