Kafka 集群包含一个或多个服务器,服务器节点为broker
每条发布到kafuka集群的消息都有一个类别,这个类别被称为Topic。
1.Topic 中的数据分割为一个或者多个partition
2.每个topic至少有一个partition,当生产者产生数据的时候,根据分配策略,选择分区,然后将消息追加到指定的分区的末尾(队列)
每个partition有多个副本,其中有且仅有一个作为Leader,Leader是当前负责数据的读写的partition。
Follower跟随Leader,所有写请求通过Leader路由,数据变更会广播给所有的Follower,Follower与Leader保持数据同步。
1.数据会存放到topic的partation中,但是有可能分区会损坏
2.我们需要对分区的数据进行备份
3.我们将分区的分为Leader(1)和Follower(N)
i:Leader负责写入和读取数据
Ii:Follower 只负责备份
iv:保证了数据的一致性
1.生产者即数据的发布者,该角色将消息发布到kafka的topic中
2.Broker接收到生产者发送的消息后,broker将该消息追加到当前用于追加数据的segment文件中;
3.生产者发送的消息,存储到一个partition中,生产者也可以指定数据存储的partition
消费者可以从broker中读取数据,消费者可以消费多个topic中的数据
1.可以唯一的标识一条消息
2.偏移量决定读取数据的位置,不会有线程安全的问题,消费者通过偏移量来决定下次读取的消息
3.消息被消费之后,并不被马上删除,这样多个业务就可以重复使用kafka的消息
4.我们某一个业务也可以通过修改偏移量达到重新读取消息的目的,偏移量由用户控制
5.消息最终还是会被删除的,默认生命周期为1周(7*24小时=168小时)
Kafka通过zookeeper来存储集群的meta信息。
Dos:tar - zxvf kafka.............tgz 解压压缩包
Mv kafka..... /路径 移除kafka文件夹
cd /opt/sxt/kafka...../进入卡夫卡所在路径
Dos: vim config/server.properties
Kafka - ISR机制
Broker数据存储机制
异步发送普通生产者代码操作实现
###########【Kafka集群】###########
spring.kafka.bootstrap-servers=112.126.74.249:9092,112.126.74.249:9093
###########【初始化生产者配置】###########
# 重试次数
spring.kafka.producer.retries=0
# 应答级别:多少个分区副本备份完成时向生产者发送ack确认(可选0、1、all/-1)
spring.kafka.producer.acks=1
# 批量大小
spring.kafka.producer.batch-size=16384
# 提交延时
spring.kafka.producer.properties.linger.ms=0
# 当生产端积累的消息达到batch-size或接收到消息linger.ms后,生产者就会将消息提交给kafka
# linger.ms为0表示每接收到一条消息就提交给kafka,这时候batch-size其实就没用了
# 生产端缓冲区大小
spring.kafka.producer.buffer-memory = 33554432
# Kafka提供的序列化和反序列化类
spring.kafka.producer.key-serializer=org.apache.kafka.common.serialization.StringSerializer
spring.kafka.producer.value-serializer=org.apache.kafka.common.serialization.StringSerializer
# 自定义分区器
# spring.kafka.producer.properties.partitioner.class=com.felix.kafka.producer.CustomizePartitioner
###########【初始化消费者配置】###########
# 默认的消费组ID
spring.kafka.consumer.properties.group.id=defaultConsumerGroup
# 是否自动提交offset
spring.kafka.consumer.enable-auto-commit=true
# 提交offset延时(接收到消息后多久提交offset)
spring.kafka.consumer.auto.commit.interval.ms=1000
# 当kafka中没有初始offset或offset超出范围时将自动重置offset
# earliest:重置为分区中最小的offset;
# latest:重置为分区中最新的offset(消费分区中新产生的数据);
# none:只要有一个分区不存在已提交的offset,就抛出异常;
spring.kafka.consumer.auto-offset-reset=latest
# 消费会话超时时间(超过这个时间consumer没有发送心跳,就会触发rebalance操作)
spring.kafka.consumer.properties.session.timeout.ms=120000
# 消费请求超时时间
spring.kafka.consumer.properties.request.timeout.ms=180000
# Kafka提供的序列化和反序列化类
spring.kafka.consumer.key-deserializer=org.apache.kafka.common.serialization.StringDeserializer
spring.kafka.consumer.value-deserializer=org.apache.kafka.common.serialization.StringDeserializer
# 消费端监听的topic不存在时,项目启动会报错(关掉)
spring.kafka.listener.missing-topics-fatal=false
# 设置批量消费
# spring.kafka.listener.type=batch
# 批量消费每次最多消费多少条消息
# spring.kafka.consumer.max-poll-records=50
org.springframework.kafka
spring-kafka
@EnableKafka -- 配置类
Service 实现类上 批量接收需要声明工厂为batchFactory
@KafkaListener(topics = “”,groupId=””,containerFactory = "batchFactory")
@KafkaListener(id = "consumer1",
groupId = "felix-group",
topicPartitions = {
@TopicPartition(topic = "topic1", partitions = { "0" }),
@TopicPartition(topic = "topic2", partitions = "0",
partitionOffsets = @PartitionOffset(partition = "1", initialOffset = "8"))
})
属性解释:
① id:消费者ID;
② groupId:消费组ID;
③ topics:监听的topic,可监听多个;
④ topicPartitions:可配置更加详细的监听信息,可指定topic、parition、offset监听。