Kafka的数据单元被称为消息。
批次就是一组消息。为了提高效率,消息被分
主题:Kafka的消息通过主题进行分类。主题好比数据库的表,或者文件系统里的文件夹。
分区:主题可以被分为若干个分区,一个分区就是一个提交日志。
分区首领:一个分区从属于一个broker,该broker被称为分区的首领。
一个分区可以分配给多个broker,这时候会发生分区的复制。
生产者:生产者创建消息(发布者/写入者)。一般情况下,一个消息会被发布到一个特定的主题上。生成者在默认情况下把消息均衡地分布到主题的所有分区,而并不关心特定消息会被写到哪个分区。
消费者:(订阅者或读者),消费者订阅一个或多个主题,并按照消息生成的顺序读取它们。
偏移量:在给定的分区里,每个消息的偏移量都是唯一的。消费者把每个分区最后读取的消息偏移量保存在Zookeeper或kafka上。
消费者群组:一个或多个消费者共同读入一个主题。
所有权关系:消费者与分区之间的映射通常被称为消费者对分区的所有权关系。
broker:一个独立的kafka服务器。broker接收来自生产者的消息,为消息设置偏移量,并提交消息到磁盘存储。
broker为消费者提供服务,对读取分区的请求作出响应,返回已提交到磁盘的消息。
broker是集群的组成部分。
每个集群都有一个broker同时充当了集群控制器的角色(自动从集群的活跃成员中选举出来)。
控制器:负责管理工作,包括将分区分配给broker和监控broker.
保留消息策略:
默认保留消息策略:保留一段时间(比如7天),或者保留消息到一定大小的字节数(比如1GB),当消息达到这些上限时,旧消息就会过期并被删除。
数据类型分离;安全需求隔离;多数据中心(灾难恢复)。
MirrorMaker工具:实现集群间的消息复制。
Kafka不仅支持多个消费者,还允许消费者非实时地读取消息,这要归功于kafka的数据保留特性。消息被提交到磁盘,根据设置的保留规则进行保存。每个主题可以设置单独的保留规则,以满足不同消费者的需求,各个主题可以保留不同数量的消息。
在安装Zookeeper和Kafka之前,需要先安装Java环境。推荐安装Java 8(java.com)
(usr/java/jdk1.8)
Kafka使用Zookeeper保存集群的元数据信息和消费者信息。Kafka发行版自带了Zookeeper,可以直接从脚本启动,不过安装一个完整版的Zookeeper也不费劲。
安装目录:usr/local/zookeeper
数据目录:/var/lib/zookeeper
配置文件:、usr/local/zookeeper/conf/zoo.cfg
安装目录:/usr/local/kafka
消息保存:/tmp/kafka-logs 目录下
如何使用Kafka生产者?
如何创建KafkaProducerRecores对象、如何将记录发送给Kafka?
如何处理从Kafka返回的错误?
生产者的重要配置选项,使用不同分区方法和序列化器。
如何自定义序列化器和分区器?
第三方客户端:
除了内置的客户端外,Kafka还提供了二进制连接协议,也及时说,我们直接向Kafka的网络端口发送适当的字节序列,就可以实现从Kafka读取消息或往Kafka写入消息。
一个应用程序在很多情况下需要往Kafka写入消息:记录用户的活动(用于审计和分析)、记录度量指标、保存日志消息、记录只能家电的信息、与其他应用程序进行异步通信、缓冲即将吸入到数据库的数据,等等。
ProcucerRecord对象需要包含目标主题和要发送的内容。我们可以指定键和分区,也可不指定。
如果指定了键和分区,那么分区器就不会做任何事情,直接吧指定的分区返回。
如果没有指定分区,那么分区器会根据ProducerRecord对象的键来选择一个分区。
选好分区以后,生产者就知道往哪个主题和分区发送这条记录了。
ProcucerRecord对象--》序列化器(键和值对象序列化成字节数组)--》网络传输--》分区器--》主题和分区--》追加记录
这个批次的消息会被发送到相同的主题和分区上。有一个独立的线程负责把这些记录批次发送到相应的broker上。
服务器响应:如果消息成功写入Kafka,就返回一个RecordMetaData对象,它包含了主题和分区信息,以及记录在分区里的偏移量。
如果写入失败,则返回一个错误。生产者在收到错误之后会尝试重新发送消息,几次之后如果还是失败,就返回错误信息。
bootstrap.servers:该属性指定broker的地址清单,地址格式:host:port。清单里面不需要包含所有的broer地址。生产者会从给定的broker里查找到其他broker的信息。
key.serializer:broker希望收到的消息的键和值都是字节数组。
value.serializer:指定的类会将值序列化。
private Properties kafkaProps = new Properties();
kafkaProps.put("bootstrap.servers","broker1:9092,broker2:9092");
...
producer = new KafkaProducer
发送消息主要3种方式:
1)发送并忘记(fire-and forger)
把消息发送给服务器,但并不关心它是否正常到达。大多数情况下,消息会正常到达,因为kafka是高可用的,而且生产者会自动尝试重发。不过,使用这种方式有时候也会丢失一些消息
2)同步发送(send())
我们使用send() 方法发送消息,他会返回一个Future对象,调用get() 方法进行等待,就可以知道消息是否发送成功。
3)异步发送
我们调用send() 方法,并制定一个回调函数,服务器在返回响应时候调用该函数。
ProducerRecord
主题名字,键,值
try{
producer.send(record);
}catch(Exception e){}
producer.send(recore).get();
producer.send() 方法先返回一个Future对象,然后调用Future对象的get() 方法等待Kafka响应。如果服务器返回错误,get()方法会抛出异常, 如果没有返回错误,我们会得到一个RecoreMetadata对象,可以用它获取消息的偏移量。
KafkaProducer一般会发生两类错误。其中一类是可重试错误,这类错误可以通过重发消息来解决。比如:连接错误,可以通过再次创建连接来解决,“无主(no leader)” 错误则可以通过重新为分区选举首领来解决。
KafkaProducer可以被配置成自动重试,如果多次重试后仍无法解决问题,应用程序会收到一个重试异常。
另一类错误:无法通过重试解决,比如“”消息太大“异常”, 对于这类错误,KafkaProducer不会进行任何重试,直接抛出异常
假设消息在应用程序和Kafka集群之间一个来回需要10ms,如果在发送完每个消息后都等待回应,那么发送100个消息需要1秒。但如果只发送消息而不等待响应,那么发送100个消息所需要的时间会少很多。大多数时候,我们并不需要等待响应-- 尽管Kafka会把目标主题、分区信息和消息的偏移量发送回来,但对于发送端的应用来说不是必须的。不过在消息发送失败时,我们需要抛出异常、记录错误日志,或者把消息写入“错误消息”文件以便日后分析。
为了在异步发送消息的同事能够对异常情况进行处理,生产者提供了回调支持。
private class DemoproducerCallback implements Callback{ @1
@Override
public void onCompletion(RecordMetadata recoreMetadata, Exception e){
if(e != null){
e.printStackTrace(); @2
}
}
}
producer.send(record, new DemoProducerCallback()); @4
@1 为了使用回调,需要实现一个org.apache.kafka.producer.Callback 接口的类, 这个接口只有一个onCompletion 方法
@ 2 如果kafka返回一个错误, onCompletion 方法会抛出一个非空异常(no null).
@4 在发送消息传进去一个回调对象
。acks 参数指定了必须要有多少个分区副本收到消息,生产者才会人为消息写入成功的。
acks = 0
acks = 1 ,只要集群的首领收节点收到消息,生产者就会收到一个来自服务器的成功响应。
acks =all
buffer.memory: 用来设置生产者缓冲区的大小,生产者用它缓冲要发送到服务器的消息。
compression.type:该参数可以设置为snappy、gzip或lz4,它指定了消息被发送给broker之前使用哪一种压缩算法进行研发。
retries:生产者从服务器收错误有可能是临时性的错误(比如分区收不到首领)。这种情况下,retries 参数值决定了生产者可以重发消息的次数,如果达到了这个次数,生产者会放弃重试并返回错误。
。。。。
顺序保证:Kafka可以保证同一个分区里的消息是有序的。也就是说,如果生产者按照一定的顺序发送消息,broker就会按照这个顺序吧它们写入分许,消费者也会按照同样的顺序读取它们。
创建一个生产者对象必须制定序列化器。
如果发送到Kafka的对象不是简单的字符串或者整形,那么可以使用序列化框架来创建消息记录,如Avro、Thift或Protobuf,或者使用自定义序列化器。
假设创建一个简单的类来表示一个客户:
public class Customer{
private int customerID;
private String customerName;
public Customer(int ID, String name){
this.customerID = ID;
this.customerName = name;
public int getID(){
return customerID;
}
public String getName(){
return customerName;
}
}
}
我们要为这个类创建一个序列化器,他看起来可能是这样:
public class CustomerSerializer implements Serializer
@Override
public void configure(Map config, boolean isKey){
//不做任何配置
}
@Override
public byte[] serializer(String tiopic ,Customer data){
}
@Override
public void close(){}
}
只要使用这个CustomerSerilizer,就可以把消息记录定义成ProducerRecored
基于以上几点原因,我们不建议使用自定义序列化器,而是使用已有的序列化器和反序列化器,比如Json,avro、Thrift、或Protobuf.
下面我们将会介绍Avro, 然后演示如何序列化AVro记录并发送给Kafka。
Apache Avro 是一种与编码语言无关的序列化格式。Doug Cutting 创建了这个项目,目的是提供一种共享数据文件的方式。
Avro 数据通过与语言无关的schema来定义。schema通过JSON来描述,数据被序列化成二进制文件或JSON文件,不过一般会使用二进制文件。Avro在读写文件时需要用到schema,schema一般会被内嵌在数据文件里。
Avro有一个很有意思的特性是,当负责写消息的应用程序使用了新的schema,负责读写消息的应用程序继续处理消息而无需做任何改动,这个特性使得它特别使用使用在像Kafka这样的消息系统上。
Avro的数据文件里包含了整个schema,不过这样的开销是可接受的。但是如果在每条Kafka记录里都嵌入schema,会记录的大小成倍地增加。不过不管怎样,在读取记录记录时仍然需要用到整个schema,所以要先找到schema。我们遵循通用的结构模式并使用“schema注册表“”来达到目的。
我们把所有写入数据需要用到的schema保存在注册表里,然后记录里引用schema的标识符。负责读取数据的应用程序使用标识符从注册表里拉去schema来反序列化记录。序列化器和反序列化器分别负责处理shcema的注册和拉取。Avro序列化器的使用方法与其他序列化器是一样的。
在之前的例子里,Pro'ducerRecord对象包含了目标主题、键和值。Kafka的消息是一个个键值对,ProducerRecord对象可以只包含目标主题和值,键可以设置为默认的null,不过大多数应用程序会用到键。键有两个用途:可以作为消息的附加信息,也可以用来决定消息该被写到主题的哪个分区。拥有相同键的消息将被写到同一个分区。也就是说,如果一个进程只从一个主题的分区读取数据,那么具有相同键的所有记录都会被改进程读取。要创建一个包含键值的记录,
ProducerRecord
如果要创建键为null的消息,不指定键就可以了:
ProducerRecord
应用程使用KafkaConsumer向Kafka订阅主题,并从订阅的主题上接收消息。