Kafka快速开始

入门

1.简介

Kafka is a distributed streaming platform，kafka是一个分布式流式平台，具有三个关键功能：

1.它允许您发布和订阅记录流。在这方面，它类似于消息队列或企业消息系统；

2.它允许您以容错方式存储记录流；

3.它允许您在记录发生时处理记录。

了解几个概念：

1.Kafka作为一个群集在一个或多个服务器上运行；

2.Kafka集群以称为Topic的类别存储记录流；

3.每个记录由一个键，一个值和一个时间戳组成。

来自Kafka官网的一张介绍Kafka的图片：

如上图所示，kafka提供了四个核心的API：

1.Producer API允许应用程序将流记录发布到一个或多个Kafka topics；

2.Consumer API允许应用程序订阅一个或多个topics，并处理为其生成的记录流；

3.Streams API允许应用程序充当流处理器，消耗来自一个或多个topics的输入流并产生到一个或多个输出topics的输出流，有效地将输入流转换为输出流；

4.Connector API允许构建和运行可重用的生产者或消费者，将Kafka topics连接到现有应用程序或数据系统。例如，关系数据库的连接器可能捕获对表的每个更改。

2.Topics and Logs

Topics是发布记录的类别或Feed名称，Topics可以具有零个，一个或多个订阅它的consumers，对于每个Topic，Kafka集群维护一个partition(分区)日志，如下图所示：

每个partition是一个有序的，不可变的记录序列，不断地附加到结构化提交日志。每条消息在文件中的位置称为offset（偏移量），offset为一个long型数字，它是唯一标记一条消息。

Kafka集群保留所有已发布的记录，不论它们是否已经被消费；日志文件会根据保留策略中配置的时间之后进行删除，比如log文件保留2天，那么两天后文件会被清除，无论其中的消息是否被消费。kafka通过这种简单的手段,来释放磁盘空间,以及减少消息消费之后对文件内容改动的磁盘IO开支。

每个消费者保留的唯一元数据是消费者在日志中的offset or position。这种偏移由消费者控制，可以按照喜欢的任何顺序来消费记录。例如，消费者可以重置到较旧的偏移以重新处理来自过去的数据或者跳到最近的记录并开始从“Now”消费。

Kafka的consumer是非常轻量级的，他们可以来来去去，对群集或其他消费者没有太大的影响。

日志中的分区有几个目的。首先，它们允许日志扩展到适合单个服务器的大小。每个单独的分区必须适合托管它的服务器，但一个主题可能有许多分区，因此它可以处理任意数量的数据。第二，它们作为并行性的单位。

3.Distribution

日志的partition分布在Kafka集群中的服务器上，每个服务器处理数据并请求共享分区。每个分区都跨越可配置数量的服务器进行复制，以实现容错。

每个partition具有用作“Leader”的一个服务器和充当“follower”的零个或多个服务器。Leader处理partition的所有读取和写入请求，而follower被动地复制Leader。如果Leader失败，其中一个follower将自动成为新的Leader。每个服务器作为其一些partition的Leader和为其他partition的follower，所以负载在集群内是平衡的。

4.Producers

Producer将消息发布到指定的Topic中，同时Producer也能决定将此消息归属于哪个partition；比如基于”round-robin”方式或者通过其他的一些算法等。

5.Consumers

Consumers使用consumer group名称标记自己，并且发布到topic的每个记录都会传递到每个订阅consumer group组中的一个Consumer实例。Consumer实例可以在单独的进程中或在单独的机器上。

如果所有Consumer实例具有相同的consumer group，则记录将有效地在Consumer实例上进行负载平衡。

如果所有Consumer实例具有不同的consumer group，则每个记录将被广播到所有Consumer进程。