Apache Kafka 是由 Apache 软件基金会开发的一个开源流处理平台,用于处理实时的大规模数据流。Kafka 的目标是为了处理活跃的流式数据,包括传感器数据,网站日志,应用程序内部的消息,等等。它可以处理成千上万的消息,并让你迅速地处理和存储这些消息。在 Kafka 中,生产者负责将消息发送到 Kafka 集群中的 Broker,消费者则从 Broker 订阅并接收消息。
Kafka 的架构由 Producer,Broker 和 Consumer 三部分组成,同时具备高并发、高吞吐量和分布式等特点。Producer 可以将消息发送到 Broker,Consumer 可以从 Broker 订阅和接收消息,而 Broker 则可以存储多个 Topic。一个 Topic 可以有多个 Partition,Partition 中的消息可以通过 Offset 进行管理,Kafka 中的消息以 Append-only 形式进行存储。
$ export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_291
$ export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
$ export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
Kafka 的配置文件位于 config/server.properties。下面是一些常用的配置项及其含义:
//启动Kafka
$KAFKA_HOME/bin/kafka-server-start.sh $KAFKA_HOME/config/server.properties
//关闭Kafka
$KAFKA_HOME/bin/kafka-server-stop.sh
import kafka.admin.AdminUtils;
import kafka.utils.ZkUtils;
//创建Topic
String topicName = "test";
int numPartitions = 3;
int replicationFactor = 2;
Properties topicConfig = new Properties();
AdminUtils.createTopic(zkUtils, topicName, numPartitions, replicationFactor, topicConfig);
//删除Topic
AdminUtils.deleteTopic(zkUtils, topicName);
可以在创建Topic时指定Partitions数和Replication Factor,如果需要修改可以通过以下命令修改:
//修改Partitions数
bin/kafka-topics.sh --zookeeper localhost:2181 --alter --topic test --partitions 4
//修改Replication Factor
bin/kafka-topics.sh --zookeeper localhost:2181 --alter --topic test --replication-factor 3
import org.apache.kafka.clients.producer.*;
Properties props = new Properties();
props.put("bootstrap.servers", "localhost:9092");
props.put("acks", "all");
props.put("retries", 0);
props.put("batch.size", 16384);
props.put("linger.ms", 1);
props.put("buffer.memory", 33554432);
props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
Producer<String, String> producer = new KafkaProducer<>(props);
for (int i = 0; i < 100; i++)
producer.send(new ProducerRecord<String, String>("test", Integer.toString(i), Integer.toString(i)));
producer.close();
import org.apache.kafka.clients.consumer.*;
import java.time.Duration;
import java.util.Collections;
import java.util.Properties;
Properties props = new Properties();
props.put("bootstrap.servers", "localhost:9092");
props.put("group.id", "test");
props.put("auto.commit.interval.ms", "1000");
props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
Consumer<String, String> consumer = new KafkaConsumer<>(props);
consumer.subscribe(Collections.singletonList("test"));
while (true) {
ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
for (ConsumerRecord<String, String> record : records)
System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
}
在 Kafka 中消息的可靠性保证是通过两种机制来实现的:支持副本机制和 ISR (In-Sync Replicas)列表。
支持副本机制
副本机制是指一个主题(Topic)下的分区(Partition)可以有多个副本,每个副本都存储了完整的消息,其中一个副本被指定为 leader 副本,其他副本为 follower 副本。当 producer 发送消息到某个分区时,只需要发送给 leader 副本,leader 副本再将消息分发给其他 follower 副本,这样就保证了消息的可靠性。即使某个 follower 副本出现了故障,也不会影响消息的消费,因为其他副本依然存放着完整的消息。
ISR (In-Sync Replicas)列表
ISR 列表是指当前与 leader 副本保持同步的所有 follower 副本构成的列表。当某个 follower 副本落后于 leader 副本时,会从 ISR 列表中移除,直到追上 leader 副本后再加入到 ISR 列表中。这个机制保证了 Kafka 集群的高可用性,同时也保证了消息的可靠性。
At least once 语义
Kafka 默认保证的是 At least once 语义,即 “至少处理一次”,这种语义可以通过消息的重复消费来保证,但是会带来处理效率的损失。如果希望保证消息仅被处理一次,可以选择使用幂等性(Idempotence)或事务机制。
Kafka Stream 是 Kafka 生态系统中基于流处理模型的一个库。它充分利用了 Kafka 的优点,比如高吞吐、扩展性好、可靠性高等,支持实时的数据流处理和批量处理,并且操作符也非常丰富。
Stream 流处理模型
Stream 流处理模型是一种将输入数据流转换为输出数据流的模型,可以完成实时的数据处理。在 Kafka Stream 中,数据流由一个一个记录(Record)组成,每个记录由一个键(Key)和一个值(Value)构成。通过对 Stream 流处理模型的熟练掌握,可以快速开发出高效、高可靠性的流处理程序。
操作符详解
操作符是 Kafka Stream 中最核心的概念,是用于转换数据流的最基本单元。Kafka Stream 提供了丰富的操作符,包括过滤器、映射器、聚合器、分组器等,开发者可以根据需要灵活选择。其中,映射器和聚合器是最常用的操作符,它们可以完成对数据流的各种处理和转换。
Kafka Connect 是 Kafka 生态系统中用于将数据集成到和从 Kafka 中的工具。它通过 Connector 来实现数据的传输,Kafka Connect 可以集成各种数据源和数据目的地,如文件、数据库、消息队列等。使用 Kafka Connect 可以快速的完成数据的导入和导出,并且可以实现数据的有效管理和监控。
Connector 快速入门教程
Kafka Connect 的使用非常简单,只需要编写一个 Connector 配置文件,然后启动 Kafka Connect 进程即可。在 Connector 的配置文件中,需要指定数据源和数据目的地的配置信息,并定义如何从数据源中读取数据,以及如何将数据发送到数据目的地中。
实现自定义 Connect
如果 Kafka Connect 自带的 Connector 不能满足需求,开发者还可以自定义 Connector 来实现数据的导入和导出。开发者可以参考 Kafka Connect 源码中已经实现的 Connector 来进行开发,并根据需要完善自己的 Connector 功能。通过自定义 Connector,开发者可以灵活定制符合自己业务需求的数据接入方案。
为了部署 Kafka 集群,可以按如下步骤进行:
server.properties
,需要注意的配置项包括以下几个:
broker.id
:表示当前节点的 ID,必须在所有节点中唯一。listeners
:用于设置 Kafka 绑定的地址和端口,其中端口号需要在每个节点上都是唯一的。建议使用 IP 地址而非主机名作为监听地址。log.dirs
:表示消息日志保存的路径,建议为每个节点分别设置,避免多个节点共用一个目录导致数据混乱。zookeeper.connect
:表示 ZooKeeper 的连接地址,ZooKeeper 是 Kafka 集群的重要组件。Kafka 集群的运维主要包括以下几个方面:
Kafka 集群应该具备完善的监控和告警机制,能够及时检测和处理集群中的异常情况,防止集群的宕机或数据丢失等问题。通常使用开源监控系统,如 Prometheus、Grafana。
为了防止消息丢失,Kafka 集群需要配置合适的备份策略,保证消息能够在系统故障或数据中心故障时依然可用。具体可以采用多副本备份策略或异地多活等方式来备份数据,也可以使用相关的数据备份工具。
如果集群出现消费热点问题,需要及时排查,可以使用 Kafka 自带的 Consumer Lag 工具或第三方工具进行分析,找出出现热点的原因并制定相应的解决方案。
当 Kafka 集群无法满足业务需求或需要优化性能时,我们可能需要对集群进行扩容或缩容操作。
扩容可通过增加节点数量和调整多个配置项来进行:
server.properties
文件,并重启 Kafka 进程才能让新节点生效。同时需要重新分配分区并执行数据迁移。缩容可通过减少节点数量和删除多个配置项来进行:
server.properties
文件,并重启 Kafka 进程才能让缩容生效。需要注意的是,在进行节点缩容时需要重新分配分区和执行数据迁移。在进行扩容和缩容操作前,需要通过合适的监控工具了解当前集群的状态和性能表现,根据实际需求进行配置和调整。同时使用备份策略,确保数据的完整性和可用性。
Kafka 作为一个分布式的消息队列,其在日志收集方面能够做到高效、可靠且低延迟的处理。以下是一个简单的 Java 代码示例,用于将系统日志发送到 Kafka 集群中:
import org.apache.kafka.clients.producer.*;
import java.util.Properties;
public class KafkaLogProducer {
private final KafkaProducer<String, String> producer;
private final String topic;
public KafkaLogProducer(String brokers, String topic) {
Properties prop = new Properties();
// 配置 Kafka 集群地址
prop.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, brokers);
// 配置 key 和 value 的序列化器
prop.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
prop.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
this.producer = new KafkaProducer(prop);
this.topic = topic;
}
public void sendLog(String message) {
producer.send(new ProducerRecord<>(topic, message));
}
public void close() {
producer.close();
}
}
Kafka 除了可以作为日志收集的工具之外,还可以用于数据同步。使用 Kafka 可以将数据从一个系统复制到另一个系统,并且可以实现异步和批量处理。以下是一个简单的 Java 代码示例,用于把数据从源数据库同步到目标数据库:
import org.apache.kafka.clients.consumer.*;
import org.apache.kafka.clients.producer.*;
import java.sql.*;
import java.util.Properties;
public class KafkaDataSync {
private final KafkaConsumer<String, String> consumer;
private final KafkaProducer<String, String> producer;
private final String sourceTopic;
private final String targetTopic;
public KafkaDataSync(String brokers, String sourceTopic, String targetTopic) {
Properties prop = new Properties();
// 配置 Kafka 集群地址
prop.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, brokers);
// 配置 key 和 value 的序列化器
prop.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
prop.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
this.producer = new KafkaProducer(prop);
// 配置消费者组
Properties props = new Properties();
props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, brokers);
props.put(ConsumerConfig.GROUP_ID_CONFIG, "group1");
props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");
props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");
consumer = new KafkaConsumer(props);
consumer.subscribe(Arrays.asList(sourceTopic));
this.sourceTopic = sourceTopic;
this.targetTopic = targetTopic;
}
public void start() throws SQLException {
while (true) {
ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
for (ConsumerRecord<String, String> record : records) {
String message = record.value();
// 将数据解析并同步到目标数据库
syncData(message);
}
}
}
public void close() {
consumer.close();
producer.close();
}
private void syncData(String message) {
// 数据同步逻辑代码
// ...
// 将同步后的数据发送到目标 Kafka Topic 中
producer.send(new ProducerRecord<>(targetTopic, message));
}
}
Kafka 作为一个分布式流处理平台,具有强大的实时处理能力。可以支持多种实时计算框架和处理引擎,例如 Apache Storm、Apache Flink 和 Apache Spark 等。以下是一个简单的 Kafka 流处理代码示例,用于统计指定时间范围内的日志数量:
import org.apache.kafka.streams.*;
import org.apache.kafka.streams.kstream.*;
import java.util.Properties;
public class KafkaStreamProcessor {
public static void main(String[] args) {
Properties props = new Properties();
// 配置 Kafka 集群地址
props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
// 配置 key 和 value 的序列化器和反序列化器
props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass().getName());
props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass().getName());
StreamsBuilder builder = new StreamsBuilder();
KStream<String, String> messages = builder.stream("logs");
// 统计指定时间范围内的日志数量
KTable<Windowed<String>, Long> logsCount = messages
.mapValues(log -> 1)
.groupByKey()
.windowedBy(TimeWindows.of(Duration.ofMinutes(5)))
.count();
logsCount.toStream().foreach((key, value) -> System.out.println(key.toString() + " -> " + value));
KafkaStreams streams = new KafkaStreams(builder.build(), props);
streams.start();
}
}
Kafka 集群的性能受多种因素影响,为了提高 Kafka 集群的性能,需要关注以下几个重要的性能指标:
Kafka 集群的性能受多个参数的影响,为了优化 Kafka 集群的性能,需要考虑以下几个关键参数:
为了进一步提高 Kafka 集群的性能和可靠性,需要对集群的系统架构进行优化。以下是一些常用的系统架构优化方法: