Apache Kafka 是一个分布式高吞吐量的流消息系统,Kafka建立在ZooKeeper同步服务之上。它与Apache Storm 和 Spark 完美集成,用于实时流数据分析,与其他消息传递系统相比,Kafka具有更好的吞吐量,内置分区,数据副本和高度容错功能,因此非常适合大型消息处理应用场景。
高并发:支持数千个客户端同时读写
可扩展性:kafka集群支持热扩展
容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败)
持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失
高吞吐量、低延迟: Kafka每秒可以处理几十万消息,延迟最低只有几毫秒,每个消息主题topic可以分多个区,消费者组对消息分区进行消费
使用场景:
日志收集:可以用kafka收集各种服务的日志,通过kafka一统一接口服务的方式开放各种消费者,如 hadoop,Hbase,Solr等。
消息系统:解耦生产者和消费者、缓存消息等。
用户活动跟踪:kafka经常被用来记录web用户或者app用户的各种活动,如浏览网页,搜索,点击等活动,这些活动信息被各个服务器发布到kafka的topic中,然后订阅着通过订阅这些topic来做实时的监控分析,或者装载到hadoop、数据仓库中做离线分析和挖掘。
运营指标:Kafka也经常用来记录运营监控数据,包括收集各种分布式应用的数据,比如报警和报告等。
流式处理:比如spark streaming 和 storm。
Broker:
消息中间件处理节点,一个Kafka节点就是一个Broker,一个或者多个Broker可以组成一个Kafka集群
Topic:
Kafka的消息通过Topic 主题来分类,Topic 类似于关系型数据库中的表,每个topic包含一个或多(Partition) 分区
Partition:
多个分区会分布在Kafka集群的不同服务节点上,消息以追加的方式写入一个或多个分区中
LogSegment :
每个分区有被划分为多个日志分段LogSegment组成,日志段是Kafka日志对象分片的最小单位。LogSegment算是一个逻辑概念,对应一个具体的日志文件对应一个具体的日志文件(”.log” 的数据文件)和两个索引文件(”.index” 和 “.timeindex”,分别表示偏移量索引文件和消息时间戳索引文件)组成。
Offset:
每个分区中都由一系列有序的、不可变的消息组成,这些消息被顺序地追加到Partition中,每个消息都有一个连续的序列号称之为Offset偏移量,用于在Partition内唯一标识消息。
Message:
消息是Kafka中存储的最小最基本的单位,即为一个commit log,由一个固定长度的消息头和一个可变长度的消息体组成
Producer:
消息的生产者,负责发布消息到Kafka Broker, 生产者在默认情况下把消息均衡地分布到主题的所有分区上,用户也可以自定义分区器来实现消息的分区路由。
Consumer:
消息的消费者,从Kafka Broker读取消息的客户端,消费把每个分区最后读取的消息的Offest偏移量保存在zookeeper或者 Kafka 上,如果消费者关闭或重启,它的读取状态不会丢失。
Consumer Group:
每个 Consumer 属于一个特定的 Consumer Group(若不指定 Group Name则属于默认的 group),一个或多个 Consumer 组成的群组可以共同消费一个 Topic 中的消息,但每个分区只能被群组中的一个消费者操作。
<dependency>
<groupId>org.springframework.kafkagroupId>
<artifactId>spring-kafkaartifactId>
dependency>
spring:
kafka:
bootstrap-servers: 127.0.0.1:9092
producer:
# 发生错误后,消息重发的次数。
retries: 0
#当有多个消息需要被发送到同一个分区时,生产者会把它们放在同一个批次里。该参数指定了一个批次可以使用的内存大小,按照字节数计算。
batch-size: 16384
# 设置生产者内存缓冲区的大小。
buffer-memory: 33554432
# 键的序列化方式
key-serializer: org.apache.kafka.common.serialization.StringSerializer
# 值的序列化方式
value-serializer: org.apache.kafka.common.serialization.StringSerializer
# acks=0 : 生产者在成功写入消息之前不会等待任何来自服务器的响应。
# acks=1 : 只要集群的首领节点收到消息,生产者就会收到一个来自服务器成功响应。
# acks=all :只有当所有参与复制的节点全部收到消息时,生产者才会收到一个来自服务器的成功响应。
acks: 1
consumer:
# 自动提交的时间间隔 在spring boot 2.X 版本中这里采用的是值的类型为Duration 需要符合特定的格式,如1S,1M,2H,5D
auto-commit-interval: 1S
# 该属性指定了消费者在读取一个没有偏移量的分区或者偏移量无效的情况下该作何处理:
# latest(默认值)在偏移量无效的情况下,消费者将从最新的记录开始读取数据(在消费者启动之后生成的记录)
# earliest :在偏移量无效的情况下,消费者将从起始位置读取分区的记录
auto-offset-reset: earliest
# 是否自动提交偏移量,默认值是true,为了避免出现重复数据和数据丢失,可以把它设置为false,然后手动提交偏移量
enable-auto-commit: false
# 键的反序列化方式
key-deserializer: org.apache.kafka.common.serialization.StringDeserializer
# 值的反序列化方式
value-deserializer: org.apache.kafka.common.serialization.StringDeserializer
group-id: consumer01
listener:
# 在侦听器容器中运行的线程数。
concurrency: 5
#listner负责ack,每调用一次,就立即commit
ack-mode: manual_immediate
missing-topics-fatal: false
package com.hy.demo.kafka;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.kafka.core.KafkaTemplate;
import org.springframework.kafka.support.SendResult;
import org.springframework.stereotype.Component;
import org.springframework.util.concurrent.ListenableFutureCallback;
/**
* 生产者
* @author hsq
*/
@Component
public class KafkaProducer {
private static final Logger log= LoggerFactory.getLogger(KafkaProducer.class);
@Autowired
private KafkaTemplate<String, Object> kafkaTemplate;
/**
* 生产者简单发送消息
* @param topic
* @param msg
*/
public void send(String topic,String msg){
System.out.println("发送信息内容:"+msg);
kafkaTemplate.send(topic,msg);
}
/**
* 回调发送信息 是否成功
* @param topic
* @param msg
*/
public void CallBackSend01(String topic,String msg){
System.out.println("发送信息内容:"+msg);
kafkaTemplate.send(topic, msg).addCallback(success -> {
// 消息发送到的topic
String topics = success.getRecordMetadata().topic();
// 消息发送到的分区
int partition = success.getRecordMetadata().partition();
// 消息在分区内的offset
long offset = success.getRecordMetadata().offset();
System.out.println("发送消息成功:" + topics + "-" + partition + "-" + offset);
}, failure -> {
System.out.println("发送消息失败:" + failure.getMessage());
});
}
/**
* 第二种方法
* 回调发送信息 是否成功
* @param topic
* @param msg
*/
public void CallBackSend02(String topic,String msg){
System.out.println("发送信息内容:"+msg);
kafkaTemplate.send(topic, msg).addCallback(new ListenableFutureCallback<SendResult<String, Object>>() {
@Override
public void onFailure(Throwable ex) {
System.out.println("发送消息失败:"+ex.getMessage());
}
@Override
public void onSuccess(SendResult<String, Object> result) {
System.out.println("发送消息成功:" + result.getRecordMetadata().topic() + "-"
+ result.getRecordMetadata().partition() + "-" + result.getRecordMetadata().offset());
}
});
}
}
package com.hy.demo.kafka;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.springframework.kafka.annotation.KafkaListener;
import org.springframework.stereotype.Component;
/**
* kafka消费者
* @author hsq
*/
@Component
public class KafkaConsumer {
/**
* 消费者1监听
* @param record
*/
@KafkaListener(groupId ="groupId01",topics = {"demo"})
public void onMessage1(ConsumerRecord<?, ?> record){
// 消费的哪个topic、partition的消息,打印出消息内容
System.out.println("简单消费:"+record.topic()+"-"+record.partition()+"-"+record.value());
}
/**
* 消费者2监听
* @param record
*/
@KafkaListener(groupId ="groupId02",topics = {"demo"})
public void onMessage2(ConsumerRecord<?, ?> record){
// 消费的哪个topic、partition的消息,打印出消息内容
System.out.println("简单消费2:"+record.topic()+"-"+record.partition()+"-"+record.value());
}
}
package com.hy.demo;
import com.hy.demo.kafka.KafkaProducer;
import org.junit.jupiter.api.Test;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.boot.test.context.SpringBootTest;
@SpringBootTest
public class KafkaTest {
@Autowired
private KafkaProducer kafkaProducer;
@Test
public void kafkaProducer(){
kafkaProducer.send("demo","发送第一条信息msg");
}
@Test
public void kafkaProducerCallBack(){
kafkaProducer.CallBackSend01("demo","hello world callBack");
}
@Test
public void kafkaProducerCallBack2(){
kafkaProducer.CallBackSend02("demo","hello world callBack2");
}
}