kafka学习笔记

消息中间件一般用于各个模块、系统之间的异步通信，降低各个模块之间的耦合性。

Kafka作为一个分布式的流平台，这到底意味着什么？

我们认为，一个流处理平台具有三个关键能力：

发布和订阅消息（流），在这方面，它类似于一个消息队列或企业消息系统。

以容错的方式存储消息（流）。

在消息流发生时处理它们。

什么是kakfa的优势？

它应用于2大类应用：

构建实时的流数据管道，可靠地获取系统和应用程序之间的数据。

构建实时流的应用程序，对数据流进行转换或反应。

要了解kafka是如何做这些事情的，让我们从下到上深入探讨kafka的能力。

首先几个概念：

kafka作为一个集群运行在一个或多个服务器上。

kafka集群存储的消息是以topic为类别记录的。

每个消息（也叫记录record，我习惯叫消息）是由一个key，一个value和时间戳构成。

kafka有四个核心API：

应用程序使用Producer API发布消息到1个或多个topic（主题）。

应用程序使用Consumer API来订阅一个或多个topic，并处理产生的消息。

应用程序使用Streams API充当一个流处理器，从1个或多个topic消费输入流，并生产一个输出流到1个或多个输出topic，有效地将输入流转换到输出流。

Connector API允许构建或运行可重复使用的生产者或消费者，将topic连接到现有的应用程序或数据系统。例如，一个关系数据库的连接器可捕获每一个变化。

Kafka所使用的基本术语：

Topic

Kafka将消息种子(Feed)分门别类，每一类的消息称之为一个主题(Topic).

Producer

发布消息的对象称之为主题生产者(Kafka topic producer)

Consumer

订阅消息并处理发布的消息的种子的对象称之为主题消费者(consumers)

Broker

已发布的消息保存在一组服务器中，称之为Kafka集群。集群中的每一个服务器都是一个代理(Broker). 消费者可以订阅一个或多个主题（topic），并从Broker拉数据，从而消费这些已发布的消息。

Kafka的保证(Guarantees)

生产者发送到一个特定的Topic的分区上，消息将会按照它们发送的顺序依次加入，也就是说，如果一个消息M1和M2使用相同的producer发送，M1先发送，那么M1将比M2的offset低，并且优先的出现在日志中。

消费者收到的消息也是此顺序。

如果一个Topic配置了复制因子（replication factor）为N，那么可以允许N-1服务器宕机而不丢失任何已经提交（committed）的消息。

kafka作为一个消息系统

Kafka的流与传统企业消息系统相比的概念如何？

传统的消息有两种模式：队列和发布订阅。在队列模式中，消费者池从服务器读取消息（每个消息只被其中一个读取）; 发布订阅模式：消息广播给所有的消费者。这两种模式都有优缺点，队列的优点是允许多个消费者瓜分处理数据，这样可以扩展处理。但是，队列不像多个订阅者，一旦消息者进程读取后故障了，那么消息就丢了。而发布订阅允许你广播数据到多个消费者，由于每个订阅者都订阅了消息，所以没办法缩放处理。

kafka中消费者组有两个概念：队列：消费者组（consumer group）允许同名的消费者组成员瓜分处理。发布订阅：允许你广播消息给多个消费者组（不同名）。

kafka的每个topic都具有这两种模式。

kafka有比传统的消息系统更强的顺序保证。

传统的消息系统按顺序保存数据，如果多个消费者从队列消费，则服务器按存储的顺序发送消息，但是，尽管服务器按顺序发送，消息异步传递到消费者，因此消息可能乱序到达消费者。这意味着消息存在并行消费的情况，顺序就无法保证。消息系统常常通过仅设1个消费者来解决这个问题，但是这意味着没用到并行处理。

kafka做的更好。通过并行topic的parition ——kafka提供了顺序保证和负载均衡。每个partition仅由同一个消费者组中的一个消费者消费到。并确保消费者是该partition的唯一消费者，并按顺序消费数据。每个topic有多个分区，则需要对多个消费者做负载均衡，但请注意，相同的消费者组中不能有比分区更多的消费者，否则多出的消费者一直处于空等待，不会收到消息。

kafka的安装和启动

Zookeeper安装

①、进入Zookeeper解压目录，C:\softdownload\zookeeper\conf

②、将“zoo_sample.cfg”重命名为“zoo.cfg”。

③、配置启动日记目录，用#注解调 dataDir=/tmp/zookeeper

dataDir=C:\\softdownload\\zookeeper\\data

④、系统环境变量中添加：ZOOKEEPER_HOME = C:\softdownload\zookeeper

⑤、编辑系统变量path，加上： ZOOKEEPER_HOME%\bin;

⑥、确认zoo.cfg文件中默认的Zookeeper端口（默认端口2181）。

打开新的cmd，进入安装目录：cd C:\softdownload\zookeeper\bin，输入zkserver，运行Zookeeper。

安装Kafka

①、进入Kafka配置目录，C:\softdownload\kafka\config

编辑文件“server.properties”

找到并用#注解“log.dirs=/tmp/kafka-logs”

添加自己的日记目录：log.dirs=C:\softdownload\kafka\kafka-logs

②、如果Zookeeper在某些其他的机器或集群上运行，可以将“zookeeper.connect:2181”修改为自定义IP与端口。在这里使用了同一个机器，所以没其他做修改。文件中的Kafka端口和broker.id也是可以配置的。默认设置不变。机器的localhost也为127.0.0.1，这里我也修改为ipv4的，防止localhost为ipv6时受影响。

③、Kafka会按照默认，在9092端口上运行，并连接zookeeper的默认端口：2181。

在zookeeper的基础上，运行Kafka服务

进入Kafka安装目录，C:\softdownload\kafka，切换到命令行窗口，运行kafka。

输入命令：.\bin\windows\kafka-server-start.bat .\config\server.properties

创建主题Topic

1. 现在创建主题，命名为“test”，replication factor=1（因为只有1个Kafka服务器在运行）。如果集群中所运行的Kafka服务器不止1个，可以相应增加replication-factor，从而提高数据可用性和系统容错性。

2. 在C:\softdownload\kafka\bin\windows打开新的命令行。

3. 输入下面的命令，回车：

kafka-topics.bat --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test

创建Producer及Consumer来测试服务器。

1.在C:\softdownload\kafka\bin\windows打开新的命令行。

2.输入以下命令，启动producer，可以输入消息：

kafka-console-producer.bat --broker-list localhost:9092 --topic test

0.9版本以上新命令：.\bin\windows\kafka-console-producer.bat --broker-list localhost:9092 --topic test --producer.config .\config\producer.properties

3.在同样的位置C:\softdownload\kafka\bin\windows再次打开新的命令行。

4.现在输入下列命令启动consumer，可以获取消息：

kafka-console-consumer.bat --zookeeper localhost:2181 --topic test

0.9版本以上新命令：.\bin\windows\kafka-console-consumer.bat --bootstrap-server localhost:9092 --topic test --new-consumer --from-beginning --consumer.config .\config\consumer.properties

5.两个命令行窗口，producer可以输入任何消息，consumer可以获取消息。

使用JavaAPI连接远程服务器，要在service.properties配置host.name= ~~192.168.111.111~~ （远程IP地址），这主要是因为，kafka默认是监听localhost的端口，如果不配置新端口名的话，就解析监听不到消息。

PS：上面总结的，有什么不足之处，欢迎更正补充。

kafka学习笔记

kafka的安装和启动

你可能感兴趣的:(kafka学习笔记)