kafka 消息和批次

 

1.2.1  消息和批次   

   Kafka的数据单元被称为消息

    批次就是一组消息。为了提高效率,消息被分

1.2.3 主题和分区

   主题:Kafka的消息通过主题进行分类。主题好比数据库的表,或者文件系统里的文件夹。

  分区:主题可以被分为若干个分区,一个分区就是一个提交日志。

 分区首领:一个分区从属于一个broker,该broker被称为分区的首领。

一个分区可以分配给多个broker,这时候会发生分区的复制。

kafka 消息和批次_第1张图片

1.2.4 生产者和消费者

生产者:生产者创建消息(发布者/写入者)。一般情况下,一个消息会被发布到一个特定的主题上。生成者在默认情况下把消息均衡地分布到主题的所有分区,而并不关心特定消息会被写到哪个分区。

消费者:(订阅者或读者),消费者订阅一个或多个主题,并按照消息生成的顺序读取它们。

偏移量:在给定的分区里,每个消息的偏移量都是唯一的。消费者把每个分区最后读取的消息偏移量保存在Zookeeper或kafka上。

消费者群组:一个或多个消费者共同读入一个主题。

所有权关系:消费者与分区之间的映射通常被称为消费者对分区的所有权关系。

kafka 消息和批次_第2张图片

1.2.5 Broker和集群

broker:一个独立的kafka服务器。broker接收来自生产者的消息,为消息设置偏移量,并提交消息到磁盘存储。

broker为消费者提供服务,对读取分区的请求作出响应,返回已提交到磁盘的消息。

broker是集群的组成部分。

每个集群都有一个broker同时充当了集群控制器的角色(自动从集群的活跃成员中选举出来)。

控制器:负责管理工作,包括将分区分配给broker和监控broker.

kafka 消息和批次_第3张图片

 

保留消息策略:

默认保留消息策略:保留一段时间(比如7天),或者保留消息到一定大小的字节数(比如1GB),当消息达到这些上限时,旧消息就会过期并被删除。

 

1.2.6 多集群

数据类型分离;安全需求隔离;多数据中心(灾难恢复)。

MirrorMaker工具:实现集群间的消息复制。

1.3.3 基于磁盘的数据存储

Kafka不仅支持多个消费者,还允许消费者非实时地读取消息,这要归功于kafka的数据保留特性。消息被提交到磁盘,根据设置的保留规则进行保存。每个主题可以设置单独的保留规则,以满足不同消费者的需求,各个主题可以保留不同数量的消息。

 

1.4 生态系统

/kafka 消息和批次_第4张图片

 

2 安装Kafka

 

2.1.2安装JAVA

在安装Zookeeper和Kafka之前,需要先安装Java环境。推荐安装Java 8(java.com)

(usr/java/jdk1.8)

 

2.1.3安装Zookeeper

Kafka使用Zookeeper保存集群的元数据信息和消费者信息。Kafka发行版自带了Zookeeper,可以直接从脚本启动,不过安装一个完整版的Zookeeper也不费劲。

kafka 消息和批次_第5张图片

安装目录:usr/local/zookeeper

数据目录:/var/lib/zookeeper

配置文件:、usr/local/zookeeper/conf/zoo.cfg

 

2.2 安装Kafka Broker

安装目录:/usr/local/kafka

消息保存:/tmp/kafka-logs 目录下

 

2.6 Kafka集群

kafka 消息和批次_第6张图片

 

3 Kafka生产者

如何使用Kafka生产者?

如何创建KafkaProducerRecores对象、如何将记录发送给Kafka?

如何处理从Kafka返回的错误?

生产者的重要配置选项,使用不同分区方法和序列化器。

如何自定义序列化器和分区器?

 

第三方客户端:

除了内置的客户端外,Kafka还提供了二进制连接协议,也及时说,我们直接向Kafka的网络端口发送适当的字节序列,就可以实现从Kafka读取消息或往Kafka写入消息。

 

3.1 生产者概览

一个应用程序在很多情况下需要往Kafka写入消息:记录用户的活动(用于审计和分析)、记录度量指标、保存日志消息、记录只能家电的信息、与其他应用程序进行异步通信、缓冲即将吸入到数据库的数据,等等。

kafka 消息和批次_第7张图片

 

ProcucerRecord对象需要包含目标主题和要发送的内容。我们可以指定键和分区,也可不指定。

如果指定了键和分区,那么分区器就不会做任何事情,直接吧指定的分区返回。

如果没有指定分区,那么分区器会根据ProducerRecord对象的键来选择一个分区。

选好分区以后,生产者就知道往哪个主题和分区发送这条记录了。

 

ProcucerRecord对象--》序列化器(键和值对象序列化成字节数组)--》网络传输--》分区器--》主题和分区--》追加记录

这个批次的消息会被发送到相同的主题和分区上。有一个独立的线程负责把这些记录批次发送到相应的broker上。

 

服务器响应:如果消息成功写入Kafka,就返回一个RecordMetaData对象,它包含了主题和分区信息,以及记录在分区里的偏移量。

如果写入失败,则返回一个错误。生产者在收到错误之后会尝试重新发送消息,几次之后如果还是失败,就返回错误信息。

 

3.2 创建生产者

bootstrap.servers:该属性指定broker的地址清单,地址格式:host:port。清单里面不需要包含所有的broer地址。生产者会从给定的broker里查找到其他broker的信息。

 

key.serializer:broker希望收到的消息的键和值都是字节数组。

value.serializer:指定的类会将值序列化。

private Properties kafkaProps = new Properties();

kafkaProps.put("bootstrap.servers","broker1:9092,broker2:9092");

...

producer = new KafkaProducer (kafkaProps);

 

发送消息主要3种方式:

1)发送并忘记(fire-and forger)

   把消息发送给服务器,但并不关心它是否正常到达。大多数情况下,消息会正常到达,因为kafka是高可用的,而且生产者会自动尝试重发。不过,使用这种方式有时候也会丢失一些消息

 

2)同步发送(send())

我们使用send() 方法发送消息,他会返回一个Future对象,调用get() 方法进行等待,就可以知道消息是否发送成功。

 

3)异步发送

我们调用send() 方法,并制定一个回调函数,服务器在返回响应时候调用该函数。

ProducerRecord recore = new ProducerRecore<>("CustomerCountry", "Precision Products", " France");

主题名字,键,值

try{

   producer.send(record);

}catch(Exception e){}

 

3.3.1 同步发送消息

producer.send(recore).get();

producer.send() 方法先返回一个Future对象,然后调用Future对象的get() 方法等待Kafka响应。如果服务器返回错误,get()方法会抛出异常, 如果没有返回错误,我们会得到一个RecoreMetadata对象,可以用它获取消息的偏移量。

KafkaProducer一般会发生两类错误。其中一类是可重试错误,这类错误可以通过重发消息来解决。比如:连接错误,可以通过再次创建连接来解决,“无主(no leader)” 错误则可以通过重新为分区选举首领来解决。

KafkaProducer可以被配置成自动重试,如果多次重试后仍无法解决问题,应用程序会收到一个重试异常。

另一类错误:无法通过重试解决,比如“”消息太大“异常”, 对于这类错误,KafkaProducer不会进行任何重试,直接抛出异常

 

3.3.2 异步发送消息

假设消息在应用程序和Kafka集群之间一个来回需要10ms,如果在发送完每个消息后都等待回应,那么发送100个消息需要1秒。但如果只发送消息而不等待响应,那么发送100个消息所需要的时间会少很多。大多数时候,我们并不需要等待响应-- 尽管Kafka会把目标主题、分区信息和消息的偏移量发送回来,但对于发送端的应用来说不是必须的。不过在消息发送失败时,我们需要抛出异常、记录错误日志,或者把消息写入“错误消息”文件以便日后分析。

 

  为了在异步发送消息的同事能够对异常情况进行处理,生产者提供了回调支持。

private class DemoproducerCallback implements Callback{  @1

  @Override

  public void onCompletion(RecordMetadata recoreMetadata, Exception e){

      if(e != null){

     e.printStackTrace(); @2 

    }

 }

}

producer.send(record, new DemoProducerCallback());  @4

@1 为了使用回调,需要实现一个org.apache.kafka.producer.Callback 接口的类, 这个接口只有一个onCompletion 方法

@ 2 如果kafka返回一个错误, onCompletion 方法会抛出一个非空异常(no null).

@4 在发送消息传进去一个回调对象

 

3.4 生产者的配置

。acks 参数指定了必须要有多少个分区副本收到消息,生产者才会人为消息写入成功的。

acks = 0 

acks = 1 ,只要集群的首领收节点收到消息,生产者就会收到一个来自服务器的成功响应。

acks =all

buffer.memory: 用来设置生产者缓冲区的大小,生产者用它缓冲要发送到服务器的消息。

compression.type:该参数可以设置为snappy、gzip或lz4,它指定了消息被发送给broker之前使用哪一种压缩算法进行研发。

retries:生产者从服务器收错误有可能是临时性的错误(比如分区收不到首领)。这种情况下,retries 参数值决定了生产者可以重发消息的次数,如果达到了这个次数,生产者会放弃重试并返回错误。

。。。。

 

顺序保证:Kafka可以保证同一个分区里的消息是有序的。也就是说,如果生产者按照一定的顺序发送消息,broker就会按照这个顺序吧它们写入分许,消费者也会按照同样的顺序读取它们。

 

3.5 序列化器

创建一个生产者对象必须制定序列化器。

 

3.5.1 自定义序列化器

如果发送到Kafka的对象不是简单的字符串或者整形,那么可以使用序列化框架来创建消息记录,如Avro、Thift或Protobuf,或者使用自定义序列化器。

 

假设创建一个简单的类来表示一个客户:

public class Customer{

private int customerID;

private String customerName;

public Customer(int ID, String name){

  this.customerID = ID;

  this.customerName = name;

public int getID(){

  return customerID;

}

public String getName(){

return customerName;

}

}

}

 

我们要为这个类创建一个序列化器,他看起来可能是这样:

public class CustomerSerializer implements Serializer{

 @Override

 public void configure(Map config, boolean isKey){

//不做任何配置

}

 

@Override

public byte[] serializer(String tiopic ,Customer data){

 

}

 

@Override 

  public void close(){}

}

 

只要使用这个CustomerSerilizer,就可以把消息记录定义成ProducerRecored,并且可以直接把Customer 对象传给生产者。这个例子很简单,不过代码看起来太脆弱--如果我们有多种类型的消费者,可能需要把customerID字段变成长整形,或者为Customer添加startDate字段,这样就会出现新旧消息的兼容性问题。在不同版本的序列化器和反序列化器之间调试兼容性问题着实诗歌挑战。--你需要比较原始的字节数组。更糟糕的是,如果同一个公司的不同团队需要往Kafka写入Customer数据,那么他们就需要使用相同的序列化器,如果序列化器发生改动,他们几乎要在同一时间修改代码。

 

基于以上几点原因,我们不建议使用自定义序列化器,而是使用已有的序列化器和反序列化器,比如Json,avro、Thrift、或Protobuf.

下面我们将会介绍Avro, 然后演示如何序列化AVro记录并发送给Kafka。

 

3.5.2 使用Avro序列化

Apache Avro 是一种与编码语言无关的序列化格式。Doug Cutting 创建了这个项目,目的是提供一种共享数据文件的方式。

 

Avro 数据通过与语言无关的schema来定义。schema通过JSON来描述,数据被序列化成二进制文件或JSON文件,不过一般会使用二进制文件。Avro在读写文件时需要用到schema,schema一般会被内嵌在数据文件里。

 

Avro有一个很有意思的特性是,当负责写消息的应用程序使用了新的schema,负责读写消息的应用程序继续处理消息而无需做任何改动,这个特性使得它特别使用使用在像Kafka这样的消息系统上。

 

 

3.5.3 在Kafka里使用Avro

Avro的数据文件里包含了整个schema,不过这样的开销是可接受的。但是如果在每条Kafka记录里都嵌入schema,会记录的大小成倍地增加。不过不管怎样,在读取记录记录时仍然需要用到整个schema,所以要先找到schema。我们遵循通用的结构模式并使用“schema注册表“”来达到目的。

我们把所有写入数据需要用到的schema保存在注册表里,然后记录里引用schema的标识符。负责读取数据的应用程序使用标识符从注册表里拉去schema来反序列化记录。序列化器和反序列化器分别负责处理shcema的注册和拉取。Avro序列化器的使用方法与其他序列化器是一样的。

kafka 消息和批次_第8张图片

 

 

3.6 分区

在之前的例子里,Pro'ducerRecord对象包含了目标主题、键和值。Kafka的消息是一个个键值对,ProducerRecord对象可以只包含目标主题和值,键可以设置为默认的null,不过大多数应用程序会用到键。键有两个用途:可以作为消息的附加信息,也可以用来决定消息该被写到主题的哪个分区。拥有相同键的消息将被写到同一个分区。也就是说,如果一个进程只从一个主题的分区读取数据,那么具有相同键的所有记录都会被改进程读取。要创建一个包含键值的记录,

ProducerRecord   record = new ProducerRecord<>("CustomerCounttry",“Laboratory”,“USA”);

如果要创建键为null的消息,不指定键就可以了:

ProducerRecord record = new ProducerRecord<>("CustomerCountry",“USA”);

 

4 Kafka消费者从Kafka读取数据

应用程使用KafkaConsumer向Kafka订阅主题,并从订阅的主题上接收消息。

 

4.1.1 消费者和消费者组

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(kafka)