kafka学习(1) 初识kafka

Kafka介绍

Kafka是LinkedIn采用scala开发的一个多分区, 多副本并且基于ZooKeeper协调的分布式消息系统, 定位是一个分布式流处理平台
Kafka的主要特点和扮演角色
(1) 消息系统: 消息中间件, 将上下游解耦, 削峰, 缓冲, 把同步的直接调用转换成异步的间接推送，中间通过一个队列在一端承接瞬时的流量洪峰，在另一端平滑地将消息推送出去
(2) 系统存储: kafka将数据存储到磁盘
(3) 流处理平台: Kafka为其他流处理平台提供数据来源,还提供了一个完整的流式处理类库,如窗口,链接,变换,聚合等

基本概念

Kafka体系架构包括若干Producer, 若干Broker, 若干Consumer, 以及一个ZooKeeper集群
(1) ZooKeeper负责管理集群元数据，　控制器选举等操作
(2) Producer将消息发送到Broker
(3) Broker负责把消息存储到磁盘
(4) Consumer负责从Broker订阅并消费消息

kafka体系架构.png

Producer

生产者，将消息发送到kafka 的Broker

Broker

服务代理节点，可以看作一个独立的kafka服务节点，或者kafka服务器，将消息存储到磁盘，一个或多个Broker节点组成kafka集群

Consumer

消费者，连接到kafka，从Broker订阅并消费消息，进行业务逻辑处理

Topic

kafka中消息以主题为单位进行归类，生产者把消息发送到特定的主题，每一条消息都要指定一个主题，消费者订阅主题

Partition:

1.一个主题可以有多个分区，一个分区只属于单个主题，　所以也称作主题分区
2.同一个主题下不同分区的包含的消息不同，　每个分区可以追加消息到尾部，　每个分区会分配一个offset作为消息在分区中的唯一标识，　相当于索引，　Kafka保证每个分区内消息有序

分区可以分布在不同kafka服务器上(broker)，　一个主题可以横跨多个broker

消息被发送到broker之后，　会根据分区规则选择存储在哪个分区，如果分区设计得合理所有消息都可以均匀分布在不同的分区上．每一个分区在物理上对应一个文件夹

Replica:

1.多副本机制提高容灾能力，　同一分区的不同副本中保存的是相同信息
2.副本之间是一主多从的关系，分别是leader和follower,当leader副本出现故障额时候从follower副本中选举新的leader

生产者和消费者只与leader副本进行交互, follower只负责与leader同步，follower副本中的消息相对于leader副本有一定的滞后性

由于副本处在不同的broker中，当某个broker失效时仍然能够保证服务可用

多副本架构.png

一共有４个broker，某个主题有3个分区p1,p2,p3，每个分区有3个副本，其中一个leader副本和2个follower副本
其中kafka的消费者也有容灾能力，采用拉的方式从服务端拉去消息，并且保存消费的具体位置，如果消费者宕机会根据之前的位置重新拉取消息进行消费

AR，ISR，OSR：

分区中所有副本统称为AR

所有与leader副本保持一定程度同步的副本组成ISR

ISR集合是AR集合的子集, 消息会先发送到leader副本，然后follower副本从leader副本中拉去消息进行同步

与leader副本同步滞后过多的样本重组成OSR，AR=ISR+OSR

正常情况下所有follower副本都应该与leader副本保持同步，OSR集合为空

leader副本负责跟踪ISR集合中所有follower副本的滞后状态，当follower副本落后太多或失效时，leader副本会把它从ISR集合中去除移动到OSR，如果OSR集合中有副本追上了leader副本，那么leader副本会把它从OSR集合转移到ISR集合

当leader副本发生故障时，只有ISR集合中的副本有机会被选举为leader

HW和LEO

1.HW是高水位的意思，是一个偏移量offset，消费者只能拉取到这个offset之前的消息
2.HW的作用是保证了所有Broker上面某个唯一偏移量之前的消息是一样，使得消息不立即被消费者消费掉，防止信息丢失

LEO是当前日志文件中下一条待写入的消息的offset

写入消息1.png

某分区有三个副本，一个leader两个follower，有消息3和4准备写入leader，再和follower同步

写入消息2.png

消息3和消息4写入了leader副本后，follower1金额follower2开始拉取消息3和4进行同步

写入消息3.png

在同步过程中不同follower的同步效率不一样，某一时刻follow1完全跟上了leader，follower2只同步了消息3，此时leader副本的LEO是5，follower1副本的LEO是5，follower2副本的LEO是4，因此HW取最小值LEO是4,　此时消费者只能消费0-3之间的消息

写入消息4.png

所有副本都成功写入了消息3和消息4，整个分区的HW是5, 因此消费者可以收到offset为4的消息

kafka命令测试

# 查看主题
# -zookeeper 指定了kafka连接的zookeeper服务地址
kafka-topics -list -zookeeper cloudera01:2181/kafka

# 创建一个topic,指定一个分区一个副本
kafka-topics -create -zookeeper cloudera01:2181/kafka -replication-factor 1 -partitions 1 -topic test_gp

# 通过describe查看更多信息
kafka-topics -describe -zookeeper cloudera01:2181/kafka -topic test_gp
#Topic:pira_raw_data    PartitionCount:3    ReplicationFactor:1 Configs:
#   Topic: pira_raw_data    Partition: 0    Leader: 79  Replicas: 79    Isr: 79
#   Topic: pira_raw_data    Partition: 1    Leader: 77  Replicas: 77    Isr: 77
#   Topic: pira_raw_data    Partition: 2    Leader: 78  Replicas: 78    Isr: 78
# Partition是topic的分区数，消息中的不同数据存放在不同分区；
# Replicas是副本存放的机器broker.id；
# Leader是消息的主存放位置；
# Isr跟Replicas相同则消息已经存放复制完成，如果不同说明还在存放复制中。

kafka-console-consumer -bootstrap-server cloudera01:9092 -topic test_gp -from-beginning
kafka-console-producer --broker-list cloudera01:9092 --topic test_gp

# 打开一个shell终端来订阅topic的消息
# bootstrap-server 指定了连接kafka集群的地址
# 表示从 latest 位移位置开始消费该主题的所有分区消息，即仅消费正在写入的消息
kafka-console-consumer -bootstrap-server cloudera01:9092 -topic test_gp
# 表示从指定主题中有效的起始位移位置开始消费所有分区的消息。
kafka-console-consumer -bootstrap-server cloudera01:9092 -topic test_gp -from-beginning

# 打开一个shell终端用生产者发送消息给主题
kafka-console-producer --broker-list cloudera01:9092 --topic test_gp

kafka java客户端测试

配置maven依赖


            org.apache.kafka
            kafka-clients
            2.0.0

编写kafka生产者,往kafka的test_gp主题写数据

import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerRecord;

import java.util.Properties;

public class ProducerFastStart {
    public static final String brokerList = "192.168.61.97:9092";  // kafka集群地址
    public static final String topic = "test_gp";  // 主题

    public static void main(String[] args) {
        Properties properties = new Properties();
        properties.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        properties.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        properties.put("bootstrap.servers", brokerList);

        KafkaProducer producer = new KafkaProducer(properties);
        ProducerRecord record = new ProducerRecord(topic, "hello Kafka");

        try {
            producer.send(record);
            System.out.println("消息发送成功");

        } catch (Exception e) {
            e.printStackTrace();
        }
        producer.close();
    }
}

编写kafka消费者,订阅主题test_gp数据

import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;

import java.time.Duration;
import java.util.Collections;
import java.util.Properties;

public class ConsumerFastStart {
    public static final String brokerList = "192.168.61.97:9092";
    public static final String topic = "test_gp";
    public static final String groupID = "group.gp";  // 设置消费组的名称

    public static void main(String[] args) {
        Properties properties = new Properties();
        properties.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        properties.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        properties.put("bootstrap.servers", brokerList);
        properties.put("group.id", groupID);

        KafkaConsumer consumer = new KafkaConsumer(properties);
        consumer.subscribe(Collections.singletonList(topic));
        while (true) {
            ConsumerRecords records = consumer.poll(Duration.ofMillis(1000));  // 1秒时间间隔轮询
            for (ConsumerRecord record : records) {
                System.out.println(record.value());
            }
        }
    }
}

kafka服务端配置

broker configs大部分情况下不要更改, 主要用来有针对性的调优
参数的配置位置在kafka目录下的config/server.properties

zookeeper.connect
broker要连接的Zookeeper地址,必填没有默认值,可以配置为localhost:2181,如果zookeeper有多个节点,可以用逗号隔开
zookeeper.connect=cloudera01:2181,cloudera02:2181,cloudera03:2181/kafka
最佳的实践是加入一个chroot路径,这样可以明确指定chroot裤脚下的节点是Kafka所用,如果不指定chroot默认是zookeeper的根路径

listeners
该参数指定broker监听客户端链接的地址列表,由主机名:端口组成的列表,如果不指定主机名,则表示绑定默认网卡

broker.id
kafka集群中broker的唯一标识,默认是-1

log.dir和log.dirs
kafka把所有的消息都保存到磁盘上,这两个目录用来存放kafka日志文件, log.dirs的优先级比log.dir高, 默认是/tmp/kafka-logs

message.max.bytes
该参数指定broker所能接受的消息的最大值,默认1000012B就是976.6KB,如果生产者发送的消息大于这个值就会抛出异常