guanhang89

Apache Kafka实战读书笔记（推荐指数：☆☆☆☆☆）

Apache Kafka实战读书笔记（推荐指数：☆☆☆☆☆）
- 认识AK
  - 快速入门
    - 安装和启动
    - 小案例
  - 消息引擎系统
    - 消息引擎范型
  - AK的概要设计
    - 吞吐量/延时
    - 消息持久化
    - 负载均衡和故障转移：
    - 伸缩性：
  - AK的基本概念和术语
    - 消息
    - topic和partition
    - offset
    - replica
    - leader和follower
    - ISR
  - AK的使用场景
- AK的发展历史
  - AK的历史
  - 版本变迁
  - 选择版本
- AK线上环境部署
  - 集群环境规划
    - 操作系统的选择
    - 磁盘规划
    - 磁盘容量规划
    - 内存规划：
    - cpu规划
    - 带宽规划
  - 伪分布式环境安装
    - 安装多节点ZK
    - 安装多节点AK
  - 验证部署
    - topic的创建和删除
    - 测试消息发送和消费
    - 生产者吞吐量测试
    - 消费者吞吐量测试
  - 参数设置
    - broker端参数
    - topic级别参数
    - GC参数
    - JVM参数
    - OS参数
- Producer开发
  - 概览
  - 构造producer
    - 主要步骤如下：
      - 构造properties对象
      - 构造KafkaProducer对象
      - 构造ProducerRecord对象
      - 发送消息
      - 关闭producer
    - Producer的主要参数
  - 消息的分区机制
    - 分区策略
  - 消息序列化
  - producer拦截器
  - 无消息丢失配置
  - 消息压缩
  - 多线程处理
  - 旧版本的producer
- Consumer开发
  - 概览
    - 消费者
    - 消费者组
    - 位移
    - 位移提交
    - __consumer_offsets
    - 消费者组的重平衡
  - 构建consumer
    - consumer的主要参数
  - 订阅Topic
  - 消息轮询
  - poll的使用
  - 位移管理
    - consumer位移
    - 新版本的位移管理
    - 自动提交和手动提交
    - 旧版本的consumer位移管理
  - 重平衡
    - 概览
    - 重平衡触发条件
    - 重平衡分区分配
    - rebalance generation
    - rebalance 协议
    - rebalance流程
    - rebalance监听器
  - 多线程消费实例
    - 每个线程维护一个Consumer实例
    - 但Consumer实例，多worker实例
  - 独立consumer
  - 旧版本的consumer
    - high-level consumer
    - low-level consumer
  - AK的设计原理
- broker端设计架构
  - - 消息设计
    - 集群管理
    - 副本与ISR设计
    - 水印和leader epoch
    - 日志存储设计
    - 通信协议
    - controller概览
    - broker请求处理
  - producer端设计
  - consumer端设计
  - 实现一次精确处理语义
- 管理AK集群
  - API方式管理集群
    - 服务器端API管理topic
    - 客户端API管理topic
    - 0.11.0.0版本客户端API
  - 常见异常

Apache Kafka实战读书笔记（推荐指数：☆☆☆☆☆）

认识AK

快速入门

安装和启动

可能需要的linux命令：

可以通过free -h命令查看内存大小

sudo netstat -ap | grep 2181 查看端口是否被占用

下载tgz包，解压后进入目录，启动ZooKeeper（以下简称Z）服务器：

bin/zookeeper-server-start.sh config/zookeeper.properties

此时会输出日志，表示绑定端口2181：

[2018-08-08 07:43:32,714] INFO binding to port 0.0.0.0/0.0.0.0:2181 (org.apache.zookeeper.server.NIOServerCnxnFactory)

启动kafka，默认的端口是9092

bin/kafka-server-start.sh config/server.properties

注意的是，如果使用的是虚拟机，可能JVM分配不了足够的内存，这时候可以修改脚本kafka-server-start.sh，将export KAFKA_HEAP_OPTS=”-Xmx1G -Xms1G”改为export KAFKA_HEAP_OPTS=”-Xmx256M -Xms128M”

小案例

创建topic test:

bin/kafka-topics.sh –create –zookeeper localhost:2181 –topic test –partitions 1 –replication-factor 1

查看topic的状态：

bin/kafka-topics.sh –describe –zookeeper localhost:2181 –topic test
Topic:test PartitionCount:1 ReplicationFactor:1 Configs:
Topic: test Partition: 0 Leader: 0 Replicas: 0 Isr: 0

实时发送消息：

bin/kafka-console-producer.sh –broker-list localhost:9092 –topic test

然后输入消息，按回车发送，ctrl+c结束

实时查看消息：

bin/kafka-console-consumer.sh –bootstrap-server localhost:9092 –topicst –from-beginning

消息引擎系统

消息引擎系统也就是消息队列或者说消息中间件。生产者会将消息发送到消息引擎系统，有消费者去消费，设计消息引擎系统需要考虑的两个重要因素：

消息设计：消息引擎系统在设计消息时一定要考虑语义的清晰和格式上的通用性，消息通常都采用结构化的方式进行设计，比如XML和JSON。Kafka采用的是二进制方式来保存的

传输协议设计：目前的主流协议包括AMQP、WebService+SOAP以及微软的MSMQ。kafka自己设计了一套二进制的消息传输协议

消息引擎范型

最常用的两种消息引擎范型是消息队列模型和发布/订阅模型

消息队列模型：是基于队列提供消息传输服务的，多用于进程间通信以及线程间通信，该模型定义了消息队列、发送者和接收者。提供了一种点对点的消息传递方式，一旦消息被消费，就会从队列中移除该消息

发布/订阅模型：有topic概念，一个topic可以被理解为逻辑语义相近的消息的容器，消息一旦生产，所有订阅了该topic的订阅者都可以接收到该消息

AK的概要设计

吞吐量/延时

吞吐量和延时是AK的两个重要指标，AK是通过下面四点实现特点达到了高吞吐量、低延时的设计目标的：

大量使用操作系统页缓存，内存操作速度快且命中率高

AK不直接参与物理I/O操作，而是交由最擅长此事的操作系统来完成

采用追加写入方式，摒弃了缓存的磁盘随机读写操作

使用sendfiles为代表的零拷贝技术加强网络间的数据传输效率

消息持久化

AK的消息持久化就是把消息写到磁盘上：

解耦消息发送与消息消费：生产消息并保存，不关心消息怎么消费

实现灵活的消息处理：方便消息的重新处理，即消息重演

负载均衡和故障转移：

负载均衡：

默认情况下AK的每台服务器都有均等的机会为AK的客户提供服务

这种负载均衡是通过分区领导者选举实现的，可以在集群的所有机器上均等机会分散各个partition的leader

故障转移：

故障转移是通过心跳或者会话机制来实现的

AK采用的方式是会话机制，每台服务器启动后会以会话的形式把自己注册到ZK，，一旦服务器出现问题，与ZK的会话便不能维持从而超时失效，此时AK集群会选举出另一个台服务器来完全代替这台服务器

伸缩性：

表示分布式系统中增加额外的计算资源时吞吐量提升的能力

对于AK来说，服务器上的状态统一交由ZK保管，扩展AK集群也只需要一步：启动新的AK服务器即可

AK的基本概念和术语

核心架构总结：

生产者发送消息给AK服务器

消费者从AK服务器读取消息

AK服务器依托ZK集群进行服务器的协调管理

AK服务器有一个官方名字：broker

消息

AK的消息由多个字段组成，和通信协议类似，它采用一些固定结构，用户需要掌握三个字段含义：

Key：消息建，对消息做partition时使用，即决定消息被保存在某topic下的哪个partition

Value：消息体，保存实际的消息数据

Timestamp：消息发送时间戳，用于流式处理以及其他依赖时间的处理语义，如果不指定则取当前时间

topic和partition

topic是一个逻辑概念，代表一类消息

AK采用topic-partition-message的三级结构来分散负载

topic是由多个partition组成，partition是不可修改的有序消息队列

partition上的每条消息都会被分配一个唯一的序列号-按照AK的术语，称为位移(offset)

AK根据集群的实际配置设置具体的partition数，实现整体性能的最大化

offset

有两个offset的概念

AK端的offset指的是partition上每条消息都分配了一个offset

消费端对某个partition的消费也是存在一个offset，随着消费的进行，offset会增加

AK的一条消息就是(topic，partition，offset)三元组

replica

AK高可靠性的一个实现途径是采用备份多份日志的方式(消息)，这些备份的日志在AK中成为replica，副本分为两类：

领导者副本

追随者副本

追随者副本不能提供服务给客户端的，它只是被动地向领导者副本获取数据，一旦leader所在的broker宕机，会重新选举出新的leader继续提供服务

leader和follower

就是上面所提的领导者和追随者

AK保证同一个partition的多个replica一定不会分配在同一台broker上

间接表明副本数不能大于broker数量，多出的分区不会起作用
AK根据副本引子创建多个副本，并放在不同的broker上，并从这些副本中选举出一个领导者

ISR

全称为：in-sync replica，即与leader replica保持同步的replica集合

AK为partition维护一个动态replica集合，该集合中的所有replica和leader replica保持一致

只有这个集合的replica才能被选举为leader，也只有这个集合中所有replica都接受到同一条消息，AK才会将消息置为已提交状态，即消息发送成功

AK承诺只要这个集合中至少存在一个replica，那些已提交状态的消息就不会丢失，这里有两个关键点：1.已经提交 2.ISR中至少存在一个活着的replica

换句话说，AK对于没有提交成功的消息不做任何交付保证

这个replica集合维护规则：

若一小部分replica落后于leader replica的进度，当滞后达到一定程度时，AK会将这些replica踢出ISR

相反的，但replica追上了的leader的进度，那么AK会将它们加回到ISR中

AK的使用场景

消息传输
网站行为日志追踪
审计数据收集
日志收集
Event Sourcing
流式处理

AK的发展历史

AK的历史

从批处理到流逝处理的变化，流逝处理只要实现：正确性和时间推导工具，就能够完全替代批处理
AK设计之初就提供了三个方面的功能特性：
1. 为生产者和消费者提供了一套简单的API
2. 减低网络的传输和磁盘存储开销
3. 具有高伸缩性架构
AK主要应用于数据管道中

版本变迁

AK的版本命令规则：major.minor.patch
AK使用java重写produce和consumer，即客户端代码
KafkaProduce即新版本使用的Producer类，它的特点:
1. 发送过程被划分为两个不同的线程，用户主线程和Sender I/O线程
2. 完全是异步发送消息，并提供回调机制用于判断发送成功与否
3. 分批机制：每个批次中包括多个发送请求，提升整体吞吐量
4. 更加合理的分区策略：对于没有指定的key的消息而言，旧版本producer分区是默认在一段时间将消息发送到固定分区，这容易造成数据倾斜，新版本采用轮询的方式，消息发送将更加均匀化
5. 底层统一使用基于Java Selector的网络客户端，结合Java的Future实现更加健壮和优雅的生命周期管理
新版本KafkaConsumer的特点：
1. 单线程设计：单个consumer线程可以管理多个分区消费Socket连接，极大地简化了实现
2. 位移提交与保存交由AK来处理，不再依赖ZK
3. 消费组的集中式管理
旧版本的producer和consumer
1. 旧版本的producer默认为同步发送，若采用异步发送可能会丢失消息
2. 旧版本的consumer分为high-level 和 low-lever，前者指的是消费组，后者指的是单个consumer
3. high lever比较省事，但是死板，比如只能从上次保存的位移除开始顺序读取，而low consumer可以从任意位置消费消息

选择版本

如果要使用流式处理组件，必须使用新版本
如果要启用Kafka Security，必须使用新版本
对于自行研发的客户端，推荐新版本；如果是第三方框架直接提供客户端，按照官网说明选择

AK线上环境部署

集群环境规划

操作系统的选择

AK 新版本的clients的网络库采用的是Java Selector机制，底层实现使用的是Linux的epoll，epoll模型比select高级，但是在Win上使用的是select模型，因此Linux更适合
从网络传输效率来说，由于AK直接使用了Linux上的sendfile，即领拷贝调用，因此可以提升数据传输性能

磁盘规划

SSD的极端寻道时间和存取时间能够有效提升性能
由于采用的是随机存储，机械硬盘和SSD差距不大
RAID10有两个优势：天然提供负载均衡以及提供冗余的数据存储空间，缺点是磁盘利用率低，和AK提供的冗余机制叠加
JBOD的优势：性价比高，使用AK的冗余机制也能达到高可靠。缺点：任意磁盘的损坏都会导致broker宕机

磁盘容量规划

磁盘的容量和下面几个因素有关：

新增消息数，消息留存时间，平均消息大小，副本数，是否采用压缩

内存规划：

AK仅仅将消息写入page cache，然后由系统将缓存刷入磁盘，因此，page cache的大小很重要

尽量分配更多的内存给操作系统的page cache

不要为broker设置过大的堆内存，最好不超过6GB

page cache大小至少要大于一个日志段的大小

cpu规划

使用多核系统，CPU的核数最好大于8

如果使用旧版本或clients端与broker端消息版本不一致，则考虑多配置一些资源以防止消息解压缩消耗过多的CPU

带宽规划

尽量使用高速网络

根据自身网络条件和带宽来评估AK集群机器数量

避免使用跨机房网络

伪分布式环境安装

这里使用单个节点模拟分布式环境。ZK集群通常被称为一个ensemble，只要ensemble中的大多数节点存活，那么ZK集群就能正常提供服务，因此一般使用奇数个服务器，这里模拟3个服务器。

安装多节点ZK

也可以使用AK自带的ZK，注意老版本的consumer需要ZK来保存位移信息。下载文件后，依次输入命令：

tar -zxvf zookeeper-3.4.10.tar.gz

mv zookeeper-3.4.10 zookeeper

sudo mkdir -p /home/user/zk1

sudo mkdir -p /home/user/zk2

sudo mkdir -p /home/user/zk3

在ZK conf目录下创建3个配置文件(如果使用的多台机器，每台机器上的名字可以相同)，分别为zoo1.cfg，zoo2.cfg，zoo3.cfg，比如zoo1.cfg的配置，另外两个配置类似，只需要修改端口号以及dataDir的目录：

#ZK的最小时间单位
ickTime=2000
#指定follower节点初始连接leader节点的最大tick次数
initLimit=5 
#follower节点与leader节点进行同步的最大时间
syncLimit=2 
#ZK会在内存中保存系统快照，并定期写入该路径指定的文件夹中
dataDir=/home/user/zk1  
#ZK监听客户端连接的端口，一般设置成默认值
clientPort=2181 
#下面这个三个配置中server后面的数字是全局唯一的，代表ZK的编号
#zk1,zk2,zk3是假设的三个节点的主机名，单节点模拟需要在hosts名添加
server.1=zk1:2888:3888 
server.2=zk2:2889:3889
server.3=zk3:2890:3890

下面要配置ZK的id，它位于dataDir中，且名字是myid，内容是ZK的编号

echo “1” > /home/user/zk1/myid

echo “2” > /home/user/zk1/myid

echo “3” > /home/user/zk3/myid

接着启动3个控制台，并启动ZK：

java -cp zookeeper-3.4.10.jar:lib/slf4j-api-1.6.1.jar:lib/slf4j-log4j12-1.6.1.jar:lib/log4j-1.2.16.jar:conf org.apache.zookeeper.server.quorum.QuorumPeerMain conf/zoo1.cfg

java -cp zookeeper-3.4.10.jar:lib/slf4j-api-1.6.1.jar:lib/slf4j-log4j12-1.6.1.jar:lib/log4j-1.2.16.jar:conf org.apache.zookeeper.server.quorum.QuorumPeerMain conf/zoo2.cfg

java -cp zookeeper-3.4.10.jar:lib/slf4j-api-1.6.1.jar:lib/slf4j-log4j12-1.6.1.jar:lib/log4j-1.2.16.jar:conf org.apache.zookeeper.server.quorum.QuorumPeerMain conf/zoo3.cfg

注意的是，启动第一个会有日志报错：

Cannot open channel to 3 at election address zk3/127.0.0.1:3890

其实这是由于第二三个节点还没起来导致的，继续启动第二三个节点就OK了

接着我们可以查看ZK的状态：

guanhang@ubuntu:~/Downloads/zookeeper bin/zkServer.shstatusconf/zoo1.cfgZooKeeperJMXenabledbydefaultUsingconfig:conf/zoo1.cfgMode:followerguanhang@ubuntu: /Downloads/zookeeper bin/zkServer.sh status conf/zoo2.cfg
ZooKeeper JMX enabled by default
Using config: conf/zoo2.cfg
Mode: leader
guanhang@ubuntu:~/Downloads/zookeeper$ bin/zkServer.sh status conf/zoo3.cfg
ZooKeeper JMX enabled by default
Using config: conf/zoo3.cfg
Mode: follower

其他问题附注：

如果使用多节点环境每个节点只需要运行下面命令启动（只会启动一个线程）：

bin/zkServer.sh start conf/zoo_sample.cfg

单机的启动和关闭：

bin/zkServer.sh start conf/zoo_sample.cfg
bin/zkServer.sh stop conf/zoo_sample.cfg

如果输入启动命令发现端口已经被占用，可以kill -9干掉该进程，查看端口占用：

lsof -i:端口

netstat -anp | grep 端口

如果报错形如：

at org.apache.zookeeper.server.persistence.FileTxnSnapLog

需要删掉dataDir下面的version-2文件夹

安装多节点AK

仅需要创建多个配置文件就可以，其中一个配置文件案例：

#另外两个分别是1和2
delete.topic.enable=true
unclean.leader.election.enable=false
#另外两个端口9093和9094
listeners=PLAINTEXT://localhost:9092
num.network.threads=3
num.io.threads=8
socket.send.buffer.bytes=102400
socket.receive.buffer.bytes=102400
socket.request.max.bytes=104857600
#另外两个目录是k2和k3
log.dirs=/home/user/data_logs/k1
num.partitions=1
num.recovery.threads.per.data.dir=1
offsets.topic.replication.factor=1
transaction.state.log.replication.factor=1
transaction.state.log.min.isr=1
log.retention.hours=168
log.segment.bytes=1073741824
log.retention.check.interval.ms=300000
#对应上面zk的client端口
zookeeper.connect=zk1:2181,zk2:2182,zk3:2183
zookeeper.connection.timeout.ms=6000
group.initial.rebalance.delay.ms=0

启动3个kafka：

bin/kafka-server-start.sh -daemon config/server1.properties

bin/kafka-server-start.sh -daemon config/server2.properties

bin/kafka-server-start.sh -daemon config/server3.properties

可以从查看server.log验证启动是否成功

验证kafka进程是否已经启动：

jps | grep Kafka

验证部署

topic的创建和删除

建议使用AK集群之前最好提前把所需要的topic创建出来，并执行对应的命令做验证，避免producer和consumer运行时不会因为topic分区leader的各种问题导致短暂停顿现象

创建分区：

bin/kafka-topics.sh –zookeeper zk1:2181,zk2:2182,zk3:2183 –create –topic test-topic –partitions 3 –replication-factor 3

验证：

bin/kafka-topics.sh –zookeeper zk1:2181,zk2:2182,zk3:2183 -list

bin/kafka-topics.sh –zookeeper zk1:2181,zk2:2182,zk3:2183 –describe topic test-topic

显示分区的信息：

Topic:test-topic PartitionCount:3 ReplicationFactor:3 Configs:
Topic: test-topic Partition: 0 Leader: 0 Replicas: 0,1,2Isr: 0,1,2
Topic: test-topic Partition: 1 Leader: 1 Replicas: 1,2,0Isr: 1,2,0
Topic: test-topic Partition: 2 Leader: 2 Replicas: 2,0,1Isr: 2,0,1

删除topic:

bin/kafka-topics.sh –zookeeper zk1:2181,zk2:2182,zk3:2183 –delete –topic test-topic

上面运行完后，提示只是把这个topic标记为delete，且在delete.topic.enable设置为true时，会去真正删除topic，在1.0.0后，该值不设置默认为true，之前为false.

需要注意的是，这是个异步任务，在topic分区过多或者数据过多时，会有些延迟

测试消息发送和消费

消费信息：

注意–bootstrap-server参数代表使用新版本的consumer，如果使用zookeeper参数表示老版本的consumer

bin/kafka-console-consumer.sh –bootstrap-server localhost:9092,localhost:9093,localhost:9094 –topic test-topic –from-beginning

生产信息:输入命令然后编辑发送消息，接收端能够看到

bin/kafka-console-producer.sh –broker-list localhost:9092,localhost:9093,localhost:9094 –topic test-topic

生产者吞吐量测试

可以运行一下命令测试吞吐量：

bin/kafka-producer-perf-test.sh –topic test-topic –num-records 500000 –record-size 200 –throughput -1 –producer-props bootstrap.servers=localhost:9092,localhost:9093,localhost:9094 acks=-1

消费者吞吐量测试

bin/kafka-producer-consumer-perf-test.sh –broker-list localhost:9092,localhost:9093,localhost:9094 –message-size 200 –messages 500000 –topic test-topic

参数设置

broker端参数

broker参数在server.properties文件中进行设置，AK尚不支持动态修改，就是说，如果有变动，需要重启对应的broker服务器

broker.id：AK使用唯一的标识符来标识每个broker，这就是broker.id。该参数默认是-1，如果不指定，AK会自动生成一个唯一值
log.dirs：指定了AK持久化消息的目录，可以设置多个，以逗号分隔，这样可以把负载均匀地分配到多个目录下 
zookeeper.connect：没有默认值，指定zk的端口和ip，如果使用一套zk环境管理多套kafka集群，设置该参数时必须指定chroot
listener：broker监听的列表，可以认为是broker端开放给clients的监听端口，用于客户端连接broker使用，其中PLAINTEXT表示协议，其他的还有SSL，SASL_SSL
advertised.listeners：用于IaaS环境，也就是有多个网卡的情况
unclean.leader.election.enable：是否开启unclean leader选举，为false时，在ISR为空，且leader宕机时，不允许从非ISR副本中选择一个当leader，因为这样会导致消息丢失
delete.topic.enable：是否允许删除topic，默认情况下，AK集群允许用户删除topic及其数据。
log.retention.{hours|minutes|ms}：控制消息的留存时间，如果都设置，优先级是：ms->minutes->hours。默认的留存时间是7天
log.retention.bytes：日志大小限制
min.insync.replics：只有在acks=-1时（表示producer寻求最高等级的持久化保证）有意义，表示broker端成功响应clients消息发送的最少副本数
num.network.threads：设置broker在后台用于处理网络请求的线程数，默认是3。注意这里的处理指的是转发请求
num.io.threads：设置broker端实际处理网络请求的线程数，默认是8。
message.max.bytes：broker能够接受的最大消息大小

topic级别参数

更针对性的参数设置，会覆盖broker的全局参数，常见的有：

delete.retention.ms：每个topic可以设置自己的日志留存时间以覆盖全局默认值

max.message.bytes：覆盖全局的message.max.bytes

retention.bytes：覆盖全局的参数

GC参数

GC参数设置参考：

如果用户机器上的cpu资源充足，推荐使用CMS收集器，相反地，则使用吞吐量收集器

G1收集器也是很好的选择，前提是JDK版本达到要求

需要打开GC日志的监控

JVM参数

不需要为JVM配置太多的内存，通常broker设置不超过6G的堆空间

OS参数

可以优化的参数：

文件描述符限制：AK会频繁创建并修改系统的文件，最好增加进程能够打开的最大文件描述符上限

Socket缓冲区大小：这里指的是OS级别的Socket缓冲区大小，建议将缓冲区调大，比如128K

使用Ext4或XFS文件系统

关闭swap：

设置更长的flush时间：能够提升OS物理写入操作的性能

Producer开发

概览

AK封装了一套二进制通信协议，用于对外提供各种各样的服务
producer比consumer要简单些，不涉及复杂的组件管理，每个producer是独立进行工作的
producer的首要功能是向某个topic的某个分区发送消息，其中确定目标分区是分区器（partitioner）的功能
用户可以自定义自己的分区策略
相同key的所有消息都会被路由到相同的分区中，没有指定key所有的消息会被均匀的发送到所有的分区
确定分区后需要寻找分区的leader，也就是leader副本所在的broker，只要leader才能响应clients的请求，剩下的ISR副本会和leader保持一致
producer使用一个线程将待发送的消息封装进一个ProducerRecord实例，然后将其序列化之后发送到位于producer程序中的线程缓冲区中，另一个IO发送线程负责实时地从缓冲区提取准备就绪的消息封装进一个batch，统一发送给对应的broker

构造producer

实例代码：

public static void main(String[] args) {
    Properties pros = new Properties();
    //必须指定
    pros.put("bootstrap.servers", "localhost:9092");
    //必须指定
    pros.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
    //必须指定
    pros.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
    pros.put("acks", "-1");
    pros.put("retries", 3);
    pros.put("batch.size", 323840);
    pros.put("linger.ms", 10);
    pros.put("buffer.memory", 33554432);
    pros.put("max.block.ms", 3000);
    KafkaProducer producer = new KafkaProducer<>(pros);
    for (int i = 0; i < 100; i++) {
        producer.send(new ProducerRecord("my-topic", Integer.toString(i), Integer.toString(i)));
        producer.close();
    }
}

主要步骤如下：

构造properties对象

至少要指定下面三个参数:

bootstrap.servers：指定broker连接的端口ip列表，如果kafka的集群较多，也可以只指定部分broker

key.serializer：发送到broker的消息都是字节序列，因此消息需要序列化，该参数指定的类需事先Kafka的Seriallizer接口，AK已经为初始类型提供了序列化器。注意的是，发送消息不指定key，该参数也是要指定的

value.serializer：和上面类似，用来对消息体进行序列化

构造KafkaProducer对象

只需简单的new该对象，并设置properties

构造ProducerRecord对象

除了指定topic和value，还可以指定发往的分区和消息的时间戳，不过一般不推荐指定时间戳，因为其和文件的索引项有关，如果指定错误，会影响功能

发送消息

producer在底层是采用异步发送，并可以通过Future实现同步和异步+回调两种方式，这里的同步是指调用Future.get()。

异步+回调的方法：

producer.send(record, new Callback() {
    @Override
    public void onCompletion(RecordMetadata recordMetadata, Exception e) {
        if (e == null) {
        }else {
        }
    }
});

同步：

RecordMetadata recordMetadata = producer.send(record).get();

发送异常分为可重试异常和不可重试异常

可重试异常：LeaderNotAvailableExcepton, NotControllerException, NetworkException等

底层会根据可重试次数进行重新发送，若重试成功异常不会被用户捕捉到

可重试异常时RetriableException的子类，其他异常都是不可重试异常

不可重试异常举例：

RecordTooLargeException：消息太大

SerializationException，KafkaException

关闭producer

减少不必要的系统资源占用，有多种传参方式：

无参的close：优雅关闭，处理完之前的发送请求后再关闭

传timeout：等到一定的超时时间，然后强制关闭

Producer的主要参数

**acks：**AK在乎的是已提交消息的持久性。一旦消息被成功提交，那么只要有一个保存了该消息的副本存活，这条消息就被视为不会丢失的

acks的相关取值：

acks=0，表示不理睬leader broker端的处理结果，此时producer发送消息后立即开启下一条消息的发送

acks=all或者-1，表示当消息发送时，leader broker不仅会将消息写入本地日志，同时还会等待ISR中所有其他副本都成功写入它们各自的本地日志后，才发送响应结果给producer。可以达到最高的持久性

acks=1：一种这种方案leader收到消息后便发送响应给producer，无序等待ISR中其他副本写入消息

buffer.memory：指定producer端缓存消息的缓冲区大小，该参数越大，吞吐量越大

compression.type：设置producer端是否压缩消息，默认值是none。压缩会增加吞吐量，但也会提升CPU的开销，目前AK支持3种压缩方式：GZIP，Snappy，LZ4，其中GZIP性能最好

retries：对可自行修复的故障进行重试策略，默认是0。重试次数可能会带来的问题：

重试可能会导致消息重新发送

重试可能造成消息的乱序

batch.size：producer会将发送到统一分区的多条消息封装进一个batch中，当batch满了的时候，producer会发送batch中的所有消息。因此batch的大小非常重要，该参数越小，吞吐量越小，各参数越大，内存占用越大

linger.ms：控制消息发送延时行为，该参数默认值是0，表示消息需要立即发送，无需关系batch是否已经被填满，但是这样会拉低吞吐量

max.request.size：用于控制producer发送请求的大小

request.timout.ms：当producer发送请求给broker后，broker需要在规定的时间范围内将处理结果返回给producer，超过该时间就会认为请求超时了，并在回调函数中显式的抛出超时异常

消息的分区机制

分区之我见:

有了topic为什么还要分区，这就像有了分布式数据库之后，为什么还要分库分表一样，目的是为了让topic能够横向扩展

分区策略

producer提供了分区策略以及对应的分区器供用户使用。AK默认的分区器会尽力确保具有相同key的所有消息都会被发送到相同的分区。用户也可以自定义自己的分区策略：

案例：假设有一些消息是用于审计功能的，这类消息的key会被固定地分配一个字符串”audit”，我们想让这个消息发到topic最后一个分区上，以便后续统一处理，其他消息则采用随机发送的策略发送到其他分区上，代码实现：

public class AuditPartitioner implements Partitioner {
    private Random random;
    @Override
    public int partition(String topic, Object keyObj, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {
        String key = (String) keyObj;
        List partitionInfos = cluster.availablePartitionsForTopic(topic);
        int partitionCount = partitionInfos.size();
        int auditPartition = partitionCount - 1;
        return key == null || key.isEmpty() || !key.contains("audit") ? 
                random.nextInt(partitionCount - 1) : auditPartition;
    }

    @Override
    public void close() {
        //close
    }

    @Override
    public void configure(Map map) {
        random = new Random();
    }
}

消息序列化

AK针对常见的类型提供了十几种序列化器，比如像ByteArraySerializer, IntegerSerializer。自定义序列化器需要继承AK的Serializer接口

producer拦截器

需要实现接口ProducerInterceptor，其定义方法如下：

onSend：消息被序列化以及计算分区前调用该方法

onAcknowledgement：会在消息被应答之前或消息发送失败时调用，并且通常都是在producer回调逻辑触发之前，该方法运行在IO线程中，不能添加太中的逻辑

close：关闭interceptor

无消息丢失配置

producer端配置：

block.on.buffer.full = true ：该参数表示缓冲区满的时候阻塞，新版本应该设置max.block.ms

acks = all or -1 ：最强程度的持久化保证

retries = Integer.MAX_VALUE ：保证消息不丢失（可重试的情况下）

max.in.flight.requests.per.connection = 1：限制producer子单个broker连接上能够发送的未响应请求的数量，设置为1表示，只允许一个未响应，必须等待这个响应返回后才能继续发送

使用带回调机制的send发送消息，即KafkaProducer.send(record, callback)：失败了会有通知

Callback逻辑中显式地立即关闭producer，使用close(0)

broker端配置：

unclean.leader.election.enable = false：避免broker端因日志水位截取而造成消息丢失

replication.factor = 3 ：三备份原则

min.insync.replicas >1 ：控制某条消息至少被写入到ISR中多少个副本才算成功，acks=all or -1是才有意义

replication.factor > min.insync.replicas：若两者相等，只要一个副本挂掉，分区就无法正常工作了

enable.auto.commit = false

消息压缩

压缩是IO性能和CPU资源的平衡
AK支持GZIP、Snappy和LZ4，性能由高到低
压缩性能和producer端的batch有关，batch大小越大，压缩时间就越长

多线程处理

AK在使用过程中会出现两种情况，表格如下

说明	优势	劣势
单Producer实例	所有线程共享一个Producer实例	简单，性能好
多Producer实例	每个线程维护自己专属的Producer实例	可以进行细粒度调优，单个崩溃不会影响其他的工作

旧版本的producer

旧版本用的是Producer类
默认同步发送，新版本默认异步发送
参数列表几乎完全不同
旧版本直接与ZK通信发送数据，新版本摆脱ZK的依赖

Consumer开发

概览

消费者

新旧consumer的大致对比：

旧的consumer在使用low-level consumer时，需要用户自行实现错误处理和转移等功能
新版本的consumer是用Java重写的

consumer大致可以分为：

消费者组
独立消费者

消费者组

消费者组的特点：

对于同一个group而言，topic的每条消息只能发送到group下一个consumer实例上

topic消息可以发送到多个group中

AK可以通过消费者组实现Kafka的基于队列和基于发布/订阅的两种消息引擎

consumer实例来自于相同的group：实现基于队列的模型

consumer来自于不同的group：实现基于发布/订阅的模型

consumer group是用于高伸缩性、高容错性的consumer机制。组内多个consumer实例可以同时读取Kafka消息，而且一旦有某个consumer挂掉，consumer group会立即将已崩溃consumer负责的分区转交给其他consumer来负责，从而保证不丢数据–这也成为重平衡

AK目前只提供单个分区内的消息顺序，而不会维护全局的消息顺序，因此用户如果要实现topic全局的消息顺序读取，就只能通过让每个consumer group下只包含一个consumer实例的方式来实现

总结消费者组：

group可以有一个或者多个consumer实例，一个consumer实例可以是一个进程，也可以是运行在其他机器上的进程

group.id：唯一标识一个consumer group

订阅topic的每个分区只能分配给该group下的一个consumer实例

位移

每个consumer实例都会为它消费的分区维护属于自己的位置信息来记录当前消费了多少条消息。消息如果保存在broker端的问题：

broker变成有状态了，增加了同步成本，影响伸缩性

需要引入应答机制来确认消费成功

由于要保存许多consumer的位移，需要引入复杂的数据结构，从而造成不必要的资源浪费

AK通过consumer来保存位移，同时还引入了检查点机制定期对位移进行持久化

位移提交

旧版本的consumer会定期将位移信息提交到ZK的固定节点上，因此配置中指定ZK的地址

新版本会将位移提交到一个__consumer_offsets位移上

__consumer_offsets

这里简称co，co是AK创建的，保存co的文件夹有50个，用户不可擅自删除，每个文件夹下面有一个日志文件和两个索引文件，日志中存储的位移信息可以看成一个key，value形式的数据，key:groupid+topic+分区号，value是offset的值

AK定期会对co进行压实操作，即为每个消息key只保存含有最新offset的消息

为了缓解写入压力，该topic创建了50个分区，并且对group.id做哈希求模运算后，将负载分散到不同的co分区上

消费者组的重平衡

重平衡只对消费者组有效，它本质上是一种协议，规定group下的所有consumer怎么分配订阅topic的所有分区

构建consumer

示例：

public class ConsumerDemo {
    public static void main(String[] args) {
        String topicName = "test-topic";
        String groupId = "test-group";
        Properties props = new Properties();
        props.put("bootstrap.servers", "locahost:9092");
        //必须指定
        props.put("group.id", groupId);
        props.put("enable.auto.commit", "true");
        props.put("auto.commit.interval.ms", "1000");
        //从最早的消息开始读取
        props.put("auto.offset.reset", "earliest");
        //必须指定
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        //必须指定
        props.put("value.seserializer", "org.apache.kafka.common.serialization.StringDeserializer");

        KafkaConsumer consumer = new KafkaConsumer<>(props);
        //订阅不是增量式的，多次订阅会覆盖
        consumer.subscribe(Collections.singleton(topicName));
        try {

            while (true) {
                //使用了和selector类似的机制，需要用户轮询
                //1000是超时时间，控制最大阻塞时间
                ConsumerRecords records = consumer.poll(1000);
                for (ConsumerRecord record : records) {
                    System.out.println(record.key() + ":" + record.value());
                }
            }
        }finally {
            //关闭并最多等待30s
            consumer.close();
        }
    }
}

几个重要的参数解释：

bootstrap.servers：和producer相同，用来指定和broker连接的ip和端口，同样也不要指定完整的列表

group.id：group的名字

需要注意的是，AK认为只要poll方法返回了即认为consumer成功消费了消息

consumer的主要参数

session.timeout.ms：超时时间，但是在老版本代表两个含义：1. 协调器发现consumer down的超时时间 2. 两次poll间隔处理的超时时间（协调器会认为这个consumer更不上其他成员的进度）。对于1我们想降低这个时间，对于2我们不能无限减低这个时间，因此需要在两者之间做个平衡

max.poll.interval.ms：0.10.1.0版本后，上述1，2拆开，1还是由上面的参数控制，2改为由本参数设置

auto.offset.reset：指定了无位移信息或位移越界时AK的应对策略。注意重启group后，由于位移信息保存了，不满足本参数生效的条件。目前该参数有三个可取值：1. earliest：从最早的位移开始消费。2.latest：指定从最新处位移开始消费。3.none：指定未发现位移信息或位移越界，则抛出异常，这个设置很少用

enable.auto.commit：是否自动提交位移。对于”精确处理一次“语义需求的用户来说，最好将该参数设置为false，由用户自行处理位移提交

fetch.max.bytes：consumer单次获取数据的最大字节数

max.poll.records：控制单词poll返回的最大消息数，默认500条

heartbeat.interval.ms：当协调器决定开启重平衡时，会将特殊的响应塞进心跳的response中，其他成员拿到response后才知道它要重新加入group，这个过程越快越好，而这个参数就是控制这个时间的，注意该值必须小于session.timeout.ms

connections.max.idle.ms：AK会定期关闭空闲的Socket，默认9分钟，可以通过该参数来控制时间，设置为-1表示不关闭空闲连接

订阅Topic

AK基于支持正则表达式来订阅topic，使用正则的话，就必须指定ConsumerRebalanceListener接口

消息轮询

旧版本采用开启多线程去消费数据的形式。AK使用和linux IO相同的设计模式，采用单线程管理多个与broker的连接实现消息的并行读取。消费逻辑，协调器的协调以及消费者组的reblance，数据的获取都是在这个线程里处理的。

需要注意的是Java consumer是一个双线程的Java进程，还有一个线程是心跳线程

poll的使用

poll方法根据当前consumer的消息位移返回消息集合
当poll首次被调用时，新的消费者组会被创建并根据auto.offset.reset来设定消费者组的位移；一旦consumer开始提交位移，每个手续的rebalance完成后都会将位置设置为上次已提交的位移
AK的consumer不是线程安全的，如果没有显式的同步保护机制，AK会抛出异常
可以在一个线程中调用consumer.wakeup()，另一个线程捕捉WakeupException来实现线程通信。需要注意的是，该异常会在下一次的poll中捕捉到

总结一下poll的使用方法：

consumer需要定期执行其他的子任务，推荐较小的超时时间+运行标识布尔变量（判断是否在运行，多线程中可设置结束标识，定义为volatile）的方式

consumer不需要定期执行子任务：推荐poll(MAX_VALUE)+捕获Wakeup异常的方式

位移管理

consumer位移

consumer需要定期向AK提交自己的位置信息，也就是下一条待消费的消息的位置，位移是从0开始。位移是实现各种交付语义的基础，常见的3种交付语义：

最多一次处理语义：消息可能丢失，但不会被重复处理。实现：consumer在消息消费之前就提交位移

最少一次处理语义：消息不会丢失，但可能被处理多次。实现：consumer在消费后提交位移，也是默认提供的

精确一次处理语义：消息一定会被处理且只会被处理一次。老版本不支持，新版本会支持，需要类似事务的机制

关于位移的一些概念：

上次提交位移：最近一次提交的offset

当前位置：consumer已读取但未提交时的位置

水位：也程高水位，不属于consumer管理的范围，而是属于分区日志的概念。consumer是无法读取水位以上的消息

日志终端位移：不属于consumer的范围，表示了某个分区副本当前保存消息对应的最大位置。只有分区所有的副本都保存了某条消息，该分区的leader副本才会向上移动水位值

新版本的位移管理

consumer在broker中选择一个broker作为group的协调器，用于组成员管理、消费分配方案制定以及提交位移等
协调器的选择依赖内部的位移topic

自动提交和手动提交

默认情况下consumer自动间隔5s提交位移
自动提交的问题是用户不能细粒度地处理位移的提交，特别是在有较强的精确一次的处理语义

典型的手动提交代码：

props.put("enable.auto.commit", "false");
final int minBatchSize = 500;
List> buffer = new ArrayList<>();
while (true) {
    ConsumerRecords records = consumer.poll(1000);
    for (ConsumerRecord record : records) {
        buffer.add(record);
    }
    if (buffer.size() >= minBatchSize) {
        insertIntoDb(buffer);
        consumer.commitAsync();                
        buffer.clear();
    }
}

手动提交分为同步手动提交和异步手动提交，这里的异步不是开启一个线程提交，而是指不会阻塞，仍然会在poll中不断轮询提交的结果。同时提交的时候可以传一个map，显式告诉AK为哪些分区提交位移：

try{
    while (running) {
        ConsumerRecords records = consumer.poll(1000);
        for (TopicPartition partition : records.partitions()) {
            List> partitionRecords = records.records(partition);
            for (ConsumerRecord record : partitionRecords) {
                System.out.println(record.offset() + ": " + record.value());
            }
            long lastOffset = partitionRecords.get(partitionRecords.size() - 1).offset();
            //+1是因为读取下一条消息
            consumer.commitSync(Collections.singletonMap(partition, new OffsetAndMetadata(lastOffset + 1)));
        }
    }
}finally {
    consumer.close();
}

旧版本的consumer位移管理

旧版本的consumer的位移默认保存在ZK节点中，与__consumer_offsets完全没有关系。旧版本consumer也区分自动提交和手动提交位移，只不过需要设置auto.commit.enable参数，旧版本consumer默认的提交间隔是60s。设置成手动提交时，需要显式调用：ConsumerConnector.commitOffsets方法来提交位移。

重平衡

概览

重平衡是一个协议，规定了group如何达成一致来分配订阅topic的所有分区，注意组订阅topic的每个分区只会分配组内的一个consumer实例。对于某个组而言，AK的某个broker会选举为组协调者，协调者负责对组的状态进行管理。

重平衡触发条件

组重平衡触发的条件：

组成员发生变更，比如新consumer加入组，或已有consumer主动离开组，或consumer崩溃时触发重平衡

组订阅topoic数发生变更，当匹配正则表达式的新topic被创建时则会触发重平衡

组订阅topic的分区数发生变更，比如使用命令行脚本增加订阅topic的分区数

常见的是第一种情况，但并不是一定是进程挂掉和机器挂掉，也可能是consumer无法再指定的时间内完成消息的处理，协调器会任务consumer崩溃，从而引发新一轮重平衡

重平衡分区分配

AK默认提供了3种分配策略，分别是range策略，roud-robin策略和sticky策略

range策略：将单个topic的所有分区按顺序排列，然后把这些分区划分成固定大小的分区段并依次分配给每个consumer

round-robin策略：把所有topic的所有分区顺序摆开，然后轮询式地分配给各个consumer

sticky策略：会参考历史分配方案

如果group下所有consumer实例的订阅是相同的，那么使用round-robin会带来更公平的分配方案。新版本consumer默认的分配策略是range，用户根据consumer参数：partition.assignment.strategy来进行设置。AK支持自定义的分配策略，用户可以创建自己的分配器

rebalance generation

为了更好地隔离每次重平衡上的数据，新版本consumer设计了rebalance generation用于标识某次rebalance，通常从0开始，用于防止无效offset提交（上一代的offset）

rebalance 协议

重平衡本质上是一种协议，AK提供了5个协议来处理rebalance

JoinGroup：consumer请求加入组

SyncGroup请求：group leader把分配方案同步更新到组内所有成员中

Heartbeat请求：consumer定期向协调器汇报心跳表明自己依然存活

LeaveGroup请求：consumer主动通知协调器该consumer即将离组

DescribeGroup请求：查看组的所有信息，包括成员信息、协议信息、分配方案以及订阅信息

在重平衡中，协调器主要处理加入组和离开组的请求，成功重平衡之后，组内所有consumer都需要定期向协调器发送Heartbeat请求，而每个consumer也是根据Heartbeat请求的响应中是否包含REBALANCE_IN_PROGRESS来判断当前group是否开启新一轮rebalance

rebalance流程

指定协调器：计算groupI的哈希值%分区数量(默认是50)的值，寻找__consumer_offsets分区为该值的leader副本所在的broker，该broker即为这个group的协调器
成功连接协调器之后便可以执行rebalance操作，目前rebalance主要分为两步：加入组和同步更新分配方案

加入组：协调器group中选择一个consumer担任leader，并把所有成员信息以及它们的订阅信息发送给leader

同步更新分配方案：leader在这一步开始制定分配方案，即根据前面提到的分配策略决定每个consumer都负责那些topic的哪些分区，一旦分配完成，leader会把这个分配方案封装进SyncGroup请求并发送给协调器。注意组内所有成员都会发送SyncGroup请求，不过只有leader发送的SyncGroup请求中包含分配方案。协调器接收到分配方案后把属于每个consumer的方案单独抽取出来作为SyncGroup请求的response返还给给自的consumer
consumer group分配方案是在consumer端执行的

rebalance监听器

AK也支持用户把位移提交到外部存储中，若实现这个功能，用户就必须使用rebalance监听器。如果使用的是独立consumer或是直接手动分配分区，那么rebalance监听器是无效的

consumer.subscribe(Arrays.asList("test-topoic"), new ConsumerRebalanceListener() {
    @Override
    public void onPartitionsRevoked(Collection partitions) {
        //在协调器开启新一轮rebalance前会调用
    }

    @Override
    public void onPartitionsAssigned(Collection partitions) {
        //rebalance完成后调用
    }
});

注意：consumer在rebalance时检查用户是否启用了自动提交功能，如果是，他会帮用户执行提交，不需要在监听器里面显式提交；另外不要在rebalance中加入复杂的逻辑

多线程消费实例

需要注意的是consumer是非线程安全的，给出两种多线程消费的案例：

每个线程维护一个Consumer实例

代码：

public class ConsumerGroup {

    private List consumers;

    public ConsumerGroup(int consumerNum, String groupId, String topic, String brokerList) {
        consumers = new ArrayList<>();
        for(int i = 0;inew ConsumerRunnable(brokerList, groupId, topic);
            consumers.add(consumerRunnable);
        }
    }

    public void execute(){
        for (ConsumerRunnable task : consumers) {
            new Thread(task).start();
        }
    }

    public static void main(String[] args) {
        String brokerList = "localhost:9092";
        String groupId = "testGroup";
        String topic = "test-topic";
        int consumerNum = 3;

        ConsumerGroup consumerGroup = new ConsumerGroup(consumerNum, groupId, topic, brokerList);
        consumerGroup.execute();
    }
}

public class ConsumerRunnable implements Runnable {

    private final KafkaConsumer consumer;

    public ConsumerRunnable(String brokerList, String groupId, String topic) {
        Properties props = new Properties();
        props.put("bootstrap.servers", brokerList);
        props.put("group.id", groupId);
        props.put("enable.auto.commit", "true");
        props.put("auto.commit.interval.ms", "1000");
        props.put("session.timeout.ms", "30000");
        props.put("key,deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        this.consumer = new KafkaConsumer<>(props);
        consumer.subscribe(Collections.singletonList(topic));
    }

    @Override
    public void run() {

        while (true) {
            ConsumerRecords poll = consumer.poll(200);
            for (ConsumerRecord record : poll) {
                System.out.println(Thread.currentThread().getName() + "consumed " + record.partition() +
                        "th message with offset: " + record.offset());
            }
        }
    }
}

但Consumer实例，多worker实例

代码：

public class ConsumerWorker<K,V> implements Runnable {

    private final ConsumerRecords records;
    private final Map offsets;

    public ConsumerWorker(ConsumerRecords records, Map offsets) {
        this.records = records;
        this.offsets = offsets;
    }

    @Override
    public void run() {
        for (TopicPartition partition : records.partitions()) {
            List> records = this.records.records(partition);
            for (ConsumerRecord record : records) {
                System.out.println(String.format("topic=%s,partition=%d,offset=%d",
                        record.topic(), record.partition(), record.offset()));

            }
            long lastOffset = records.get(records.size() - 1).offset();
            synchronized (offsets) {
                if (!offsets.containsKey(partition)) {
                    offsets.put(partition, new OffsetAndMetadata(lastOffset + 1));
                } else {
                    long curr = offsets.get(partition).offset();
                    if (curr <= lastOffset + 1) {
                        offsets.put(partition, new OffsetAndMetadata(lastOffset + 1));
                    }
                }
            }
        }
    }
}

public class ConsumerThreadHandler<K, V> {
    private final KafkaConsumer consumer;
    private ExecutorService executors;
    private final Map offsets = new HashMap<>();

    public ConsumerThreadHandler(String brokerList, String groupId, String topic) {
        Properties props = new Properties();
        props.put("bootstrap.servers", brokerList);
        props.put("group.id", groupId);
        props.put("enable.auto.commit", "false");
        props.put("auto.offset.reset", "earliest");
        props.put("key,deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        consumer = new KafkaConsumer<>(props);
        consumer.subscribe(Collections.singletonList(topic), new ConsumerRebalanceListener() {
            @Override
            public void onPartitionsRevoked(Collection partitions) {
                //提交位移
                consumer.commitSync(                                                );
            }

            @Override
            public void onPartitionsAssigned(Collection partitions) {
                offsets.clear();
            }
        });
    }

    public void consumer(int threadNum) {
        executors = new ThreadPoolExecutor(threadNum,
                threadNum,
                0L,
                TimeUnit.MILLISECONDS,
                new ArrayBlockingQueue(1000),
                new ThreadPoolExecutor.CallerRunsPolicy());
        try {
            while (true) {
                ConsumerRecords records = consumer.poll(1000);
                if (!records.isEmpty()) {
                    executors.submit(new ConsumerWorker<>(records, offsets));
                }
                commitOffsets();
            }
        } catch (WakeupException e) {
            //忽略
        }finally {
            commitOffsets();
            consumer.close();
        }
    }

    private void commitOffsets() {
        Map unmodifiedMap;
        synchronized (offsets) {
            if (offsets.isEmpty()) {
                return;
            }
            unmodifiedMap = Collections.unmodifiableMap(new HashMap<>(offsets));
            offsets.clear();
        }
        consumer.commitSync(unmodifiedMap);
    }

    public void close() {
        consumer.wakeup();
        executors.shutdown();
    }
}

public class MultiMain {
    public static void main(String[] args) {
        String brokerList = "localhost:9092";
        String topic = "test-topic";
        String groupId = "test-group";
        final ConsumerThreadHandler handler = new ConsumerThreadHandler<>(brokerList, groupId, topic);
        final int cpuCount = Runtime.getRuntime().availableProcessors();
        Runnable runnable = new Runnable() {
            @Override
            public void run() {
                handler.consumer(cpuCount);
            }
        };
        new Thread(runnable).start();

        try {
            Thread.sleep(20000L);
        } catch (InterruptedException e) {
            //忽略
        }
        System.out.println("Starting to close the consumer....");
        handler.close();
    }
}

对比：

多consumer：连接开销大，consumer数受限于topic分区数，broker端负载高，rebalance可能性大。优点：速度快，方便位移管理

单consumer：难以维护分区内的消息顺序，位移管理困难，worker线程异常可能导致消费数据丢失。优点：消息获取与处理解耦

独立consumer

独立的consumer可以精确控制消费的需求，比如严格控制某个consumer固定地消费哪些分区。实例代码

List partitions = new ArrayList<>();
List allPartitions = consumer.partitionsFor("test-topic");
if (allPartitions != null && !allPartitions.isEmpty()) {
    for (PartitionInfo partitionInfo : allPartitions) {
        partitions.add(new TopicPartition(partitionInfo.topic(), partitionInfo.partition()));
    }
    consumer.assign(partitions);
}

旧版本的consumer

旧版本的consumer group和独立consumer分别称为high-level consumer和low-level consumer
旧版本需要制定zookeeper.connect参数

high-level consumer

依赖zk完成goup管理的功能
采用多线程的方式消费，用户可以指定多个线程来消费订阅topic。假设某个consumer group订阅了一个topic，该topic有10个分区，用户在使用旧版本时指定10个线程来消费该topic，那么每个线程都会被分配一个分区。若用户制定了11个线程，，有一个线程不会被分到任何分区

low-level consumer

用户需要自己提交位移，自己寻找分区的leader broker，自己处理leader变更
优点是能够实现精确一次的处理语义

AK的设计原理

broker端设计架构

broker通常是以服务器的形式出现的，broker的主要功能就是持久化消息以及将消息队列中的消息从发送端传输到消费端

消息设计

消息如果采用普通的Java模型，会存在内存重排和字节对齐，可能会填充不必要的字节
AK采用了java nio的ByteBuffer来保存消息，同时依赖文件系统的页缓存机制
ByteBuffer是紧凑的二进制结构，不需要字节对齐，同时也具有很好的扩展性

目前AK的消息有三个版本，V0版本，V1版本，V2版本

V0版本：

主要指0.10之前的版本，消息格式如下：

CRC校验码：4字节

magic：单字节，表示版本号

attribute：单字节，低三位表示消息的压缩类型

key长度：4字节，未指定key为-1

key值：无key则没有该字段

value长度：4字节

value值：无value则没有该字段

出去key值和value值，一共14个字节

V1版本：

V0版本的弊端：

没有消息时间信息，只能用来日志的新增时间来删除过期日志，但是这个时间是可以通过修改日志文件来修改的

因此V1版本加入了时间戳字段，占用8个字节。同时attribute的第4位表明时间戳的类型，支持两种时间戳类型，可以支持由producer还是broker设置时间戳

消息和消息集合

消息结合：包含多个日志项，每个日志项都封装了实际的消息和一组元数据。AK日志文件就是由一系列消息集合构成的（也就是写入的消息其实消息集合），AK不会在消息层面上直接操作，它总是在消息集合上进行写入操作

V1，V2的消息集合的日志项格式如下：

offset：8字节，非consumer端的offset，是指消息在AK分区日志中的offset，如果未启用压缩，就是消息的offset，如果有压缩，表示最后一条消息的offset

size：4字节

message：不定，如果采用消息压缩会将多条消息装进其value字段

V1,V2版本日志项的一个问题是broker端需要解压缩，需要遍历才能知道压缩消息的起始offset。缺陷总结如下：

空间利用率不高：长度固定是4个字节

只保存最新消息位移：也就是上面提到的问题

冗余消息级的CRC校验：每条消息都要进行校验没必要

未保存消息长度：每次需要单条消息的总字节数信息时都需要计算得出，没有使用单独字段来保存

因此，AK提出V2版本的消息和消息集合格式

V2版本

V2中消息集合也称为消息批次，消息的格式如下:

消息总长度：可变，一次性计算后保存

属性：1字节

时间戳增量：可变，以前需要8个字节保存时间戳

位移增量：可变

key长度：可变

key：key的值

value长度：可变

value：value的值

header个数：可变，包含两个字段，头部key和value，类型分别是String和byte[]，用来满足定制化需求

header：header的内容

上面的可变长度表示AK会根据具体的值来确定到底需要几个字节保存。对于上述的可变长度，V2版本借鉴Zig-zag编码方式（负数编码成对应的正数，正数编码成其2倍的数值），使得绝对值小的整数占用比较少的字节（由于小的负数的补码有大量的1，真正的信息不多），因为长度是可变的，因此每个字节的最高位表示是否是最后一个字节，只有7位参与编码。

删减的字段：

attribute字段：保存在外层的batch中

CRC校验码：放到batch中

消息batch的格式：

起始位移、长度、分区leader版本号、版本、CRC、属性、最大位移增量、起始时间戳、最大时间戳、PID、producer epoch、起始序列号、消息个数、消息内容

其中属性变成双字节，PID、epoch（版本号）、都是实现幂等性producer和支持事务而引入的

集群管理

成员管理：

AK依赖ZK实现成员管理。每个broker在ZK下注册节点的路径是：

chroot/brokers/ids/

副本与ISR设计

一个AK分区本质上就是一个备份日志，即利用多份相同的备份来提供冗余机制保证高可靠性。副本分为leader副本和follower副本，只有leader副本才对外服务，follower副本被动地向leader副本请求数据，对于落后leader太多的副本，他们是没有资格竞选leader的，因此引入了ISR机制

ISR就是集群维护的一组同步副本集合，每个topic分区都有自己的ISR列表，leader副本也是在ISR中的，只有ISR中的副本才能成为leader，producer写入的一条AK消息只有被ISR中的所有副本都接收到才被视为已提交状态。

follower副本同步：

follower副本只做一件事情：向leader副本请求数据，一些重要的概念如下：

起始位移：副本当前所含的第一条消息的offset

高水印值：也称HW，保存了该副本最新一条已提交消息的位移，leader的HW决定了consumer能够消费的最大值，超过HW的消息是未提交的消息

日志某段位移：LEO，下一条待写入的消息，follower副本向leader请求到数据后会增加自己的LEO。

交互流程如下：

producer给leader发消息，更新LEO

follower请求消息

leader发送消息给follower

follower更新LEO

leader接收响应后更新HW

当ack=-1时，上面的步骤做完之后才算producer发送成功

ISR设计：

0.9之前：提供了replica.lag.max.messages参数控制follower落后的消息数（这个参数是全局的），超过这个数量会被任务不同步，从而被踢出ISR

follower追不上leader的可能情况：

请求速度追不上leader的接收速度

进程卡住

新建的副本，需要追赶进度

注意replica.lag.max.messages参数只能针对请求追不上的情况，对于另外两种，提供replica.lag.time.max.ms来控制，表示如果follower不能该参数设置的时间内追上leader就会被认为是不同步的

这种设计的缺陷：

假设producer发起了一波生产的高峰，此时follower很可能会落后leader（落后消息数设置不合理的情况），导致踢出ISR，但是在下一次FetchRequest后，follower又会追上，从而又加入了ISR，如此往复造成震荡

0.9之后，AK改用统一的参数replica.lag.max.ms同时检测由于慢以及进程卡壳导致的滞后，默认是10秒

水印和leader epoch

水印也就是前面提到HW，实际就是指offset。注意的是HW指的是存在的消息，而LEO指的是下一条存入的位置。

LEO的更新机制

LEO的更新机制：follower会不断的向leader副本所在的broker发送FETCH请求，一旦获取消息，便写入自己的日志中进行备份

follower的LEO除了在副本所在的broker缓存中会保存，同时也会保存在leader副本所在的broker上，用来确定leader的HW值

leader端的follower副本的LEO更新时间：

leader副本端的follower副本LEO的更新发生在leader处理follower FETCH请求时，在给follower返回数据之前它先去更新follower的LEO（根据follower携带的fetch offset判断）

HW更新机制

follower的HW更新：

在f接收到消息后，会先更新LEO值，然后更新HW值，即在LEO和leader的HW两者中取小着作为HW值

在出现以下四种情况时，leader尝试更新HW（leader HW用户可见）：

副本成为leader副本：分区leader发生了变更

broker出现崩溃导致副本被踢出ISR

producer向leader副本写入消息时

leader处理follower FETCH请求时

后两种是正常场景，leader的HW更新规则：

比较满足条件的所有副本的LEO，选取最小的那个作为HW值。

满足的条件（满足之一）：1.处于ISR中 2.副本LEO落后于leader LEO的时间不大于replica.lag.time.max.ms

注意：按照上面的更新规则，在一轮producer发出消息，以及follower发出FETCH请求后，leader和follower的HW都不会跟新的，要在第二轮更新。这种更新方法的解读：

首先leader和follower的LEO的更新原则是很简单的，即收到消息即更新，leader的HW看ISR请求的offset，follower的HW主要还是leader的HW，即第一轮整体的分区HW差不多是ISR请求的最小的offset（也就是LEO）。由于是先请求，再写入消息并更新follower的LEO，因此当前轮次，虽然日志都已写入，但是分区HW还是旧的

同时注意的是，为了防止无数据时，FETCH请求过于频繁，此时会将请求寄存，超时500ms后或者producer有新消息后再强制处理请求。

这种下一轮请求才会更新HW的缺陷：

备份数据可能会丢失

备份数据不一致

基于水印备份日志的缺陷：

数据丢失：在副本数只有1的时候，leader只需要自己写入了数据就更新HW，不用考虑ISR，同时会马上返回给producer。此时followerHW还没更新，所以若它宕机，重启后会做日志截断，导致丢弃刚刚存入的消息，若此时leader宕机，follower成为leader，由于follower有话语权导致这条丢弃的消息完全从日志删除

数据不一致/数据离散：和上面的场景类似，只不过l和f同时崩溃，f先重启回来，producer又发送消息给新的leader f，然后l重启会来，正好两者的HW一样了，导致不会做任何日志截断，但是f中存的顺序和l中的不一样（f中有一条消息漏了，l中应该也漏了一条）

0.11版本解决之道：

针对上面的问题，加入了leader epoch来代替HW，它实际是一对值（epoch，offset），epoch表示leader的版本，当leader变更一次，epoch就会+1，offset对应该epoch版本的leader写入第一条消息的位移。每个副本都会保存自己当leader时写入的第一条消息的offset以及leader版本。解决上面问题的过程：

数据丢失：当f重启后，给l发消息获取它当leader时的offset，f中存入的消息没有超过这条offset的，因此不会进行日志截取

乱序问题：f先重启回来后成为leader，l后重启回来发送消息给f，返回的leader epoch中的offset小于当前l中的存入的offset，因此会截取超过该offset的消息。

日志存储设计

AK会将消息和元数据信息打包在一起封装成一个record写入日志
每条记录都会被分配一个唯一且递增的序号
日志记录的排序按照时间顺序，如果指定用户生成时间戳，可能会导致消息乱序
没有每个日志来说，又可以分为日志段文件(.log文件)和日志段索引文件(.index和.timeindex文件)
AK为每个分区在文件系统中创建了一个对应的子目录：topic->分区号
每个.log文件保存了一段位移范围的记录，该文件的名字实际就是起始的位移号
broker端会根据log.segment.bytes控制每个log的大小
当log文件被填满会会进行日志切分
正在写入的日志文件成为当前日志段，它不受AK清理和compact的影响

关于索引文件的说明：

索引文件采用稀疏索引的方式，可以通过参数设置log.index.interval.bytes设置间隔

索引文件支持只读模式和读写模式，对于当前日志段索引采用读写的方式打开

broker端通过设置log.index.size.max.bytes设置索引文件的最大大小，默认值是10M，当前日志段的索引文件大小是预分配的，日志切分后的大小才是真正大小

位置索引文件记录了相对位移到文件物理位置的映射

时间戳索引文件记录了时间戳到相对位移的映射

AK强制要求索引文件必须是索引项大小的整数倍，对于位移索引是8的倍数，对于时间戳索引是12的倍数

关于日志留存：

AK会定期清除日志的，而且清除的单位是日志段文件，当前的策略有两种：

基于时间的留存策略：AK默认会清除7天前的日志段数据，可以通过log.retention.{hours|minutes|ms}来设置，0.10之前是通过日志修改时间判断，之后是通过当前时间和日志第一条消息时间戳之差判断

基于大小的留存策略：通过参数log.retention.bytes设置，默认是-1

日志清除是异步过程，并且对当前日志段是不生效的

关于日志压缩：

确保每个分区下的每条消息具有相同key的消息都至少保存最新value的消息，AK使用Cleaner组件完成这件事

消息压缩只会使用某种策略有选择性的移除log中的消息，而不会变更消息的offset值

消息压缩是topic级别的，AK使用一些后台线程定期执行清理任务

消息压缩使用的参数如下：

log.cleanup.policy：是否启用压缩

log.cleaner.enable：是否启用log Cleaner，如果启用压缩该参数必须设置为true

log.cleaner.compaction.lag.ms：默认值是0，表示除了当前日志段，理论上所有的日志段都属于可清理部分。我们可以通过该参数设置不清理比当前时间往前的一段时间内的日志

通信协议

协议设计：

AK协议中的请求发送流有三种：

clients向broker发送请求

controller向broker发送请求

broker向broker发送请求

所有的请求和响应都具有统一的格式，即size+Request/Response，请求头部的结构：

api_key：请求类型

api_version：请求版本号

correlation_id：与对应响应的关联号，用于关联response和request

client_id：表示发出次请求的client id。

响应头只有一个字段：correlation_id，和请求头的对应

常见的请求类型：

PRODUCE请求：client向broker发送

FETCH请求：client向broker发送，也包括follower向leader发送

METADATA请求：client向broker发送获取指定topic的信息

请求处理流程：

就FETCH和PRODUCE请求而言，clients只能发给特定分区的leader broker
确定目标broker后，java clients会创建于broker的连接并一直保持（请求数据只要一个连接）
broker启动会创建一个请求阻塞队列
在0.10.2.0之前，clients端和broker端之间的兼容性是单向的，即高版本的AK的broker可以处理低版本的client请求，反过来不行。该版本之后采用broker支持的最高版本来构造client请求

controller概览

每个AK集群任意时刻都只能有一个controller
controller维护的状态分为两种：每台broker上的分区副本和每个分区的leader副本信息，从维度上看，这些状态又可以分为副本状态和分区状态，为了维护这两个状态分别引入了两个状态机
副本状态机主要管理副本的新建，离线，删除等状态：控制器决定leader分区和ISR，并将这些消息发送给所有副本
分区状态机主要管理分区的创建、在线、离线等状态：当创建topic时，控制器负责创建分区对象

controller的职责：

更新集群元数据信息：client可以向任意台broker发送METADATA请求，同时controller负责在集群信息有变动后将消息同步到所有的broker

创建topic：通过监听topic下子节点的变更情况

删除topic：通过监听delete_topic下的节点变化

分区重分配：通过监听reassign_partitions下的节点变化

leader副本选举：AK引入了preferred副本的概念，会将分区副本列表的第一个当成preferred leader

topic分区扩展：也是监听topic下的节点变化

broker加入集群：监听/broker/ids的变化

broker崩溃

受控关闭：是指优雅的关闭broker，能够在降低broker的不一致性。受控关闭是broker会给controller发送请求，而不是依赖ZK监听实现受控关闭

controller leader 选举

controller启动时会为集群中所有broker创建一个专属的Socket连接，100台broker会创建100个连接，当前controller只给broker发送3种请求：

UpdateMetadataRequest：上面已经提到

LeaderAndIsrRequest：用于创建分区、副本，同时完成作为leader和作为follower角色各自的逻辑

StopReplicaRequest：停止指定副本的数据请求操作，另外还负责删除副本数据的功能

controller中最重要的组件是ControllContext，它汇总了AK集群的所有元数据信息，是controller能够正确提供服务的基础，controller的设计是多线程的，因此保护好这个上下文，使其免受多线程并发修改成了controller很重要的任务，老版本controller的设计缺陷：

多线程共享状态：使用私有monitor锁来实现，没有并行度

代码组织混乱

管理类请求与数据类请求未分开

controller同步写ZK且是一个分区一个分区地写

controller一个分区一个分区的发送

controller给broker的请求无版本号信息

ZkClient阻塞状态管理

新版本controller主要改进了controller多线程时间处理模型

broker请求处理

AK broker请求处理模式就是Reactor设计模式，服务处理器或分发器将入站连接请求按照多路复用的方式分发到对应的请求处理器中。具体的处理细节如下：

每个broker有一个acceptor线程和若干个processor线程，processor的数量通过参数num.network.threads控制，默认是3。broker会为用户配置的每组listener创建一组processor线程。

broker端固定使用一个acceptor线程来唯一监听入站连接，processor线程接收acceptor线程分配的新Socket连接通道，然后开始监听该通道上的数据。processor实际也不是执行者，它会创建一个线程池去处理请求

每个processor线程中维护一个Java Selector实例，管理多个通道上的数据交互

producer端设计

新版本producer的大致工作流程

producer接收到消息先进行序列化，然后加上一些元数据，一起发送给partitioner确定目标分区，然后写入消息缓冲池，此时AK的send方法返回。接着Sender线程进行预处理以及发送消息，消息发送完后Sender线程处理response。

可以看到producer发送事件完全是异步过程，因此在调优producer前我们需要搞清楚性能瓶颈到底是在用户主线程还是Sender线程上

consumer端设计

新版本consumer依赖协调者来管理组内所有consumer实例并负责把分配方案发到每个consumer上，分配方案由组内leader consumer根据指定的分区分配策略指定的。AK为consumer定义了5个状态：Empty、PreparingRebalance、AwaitingSync、Stable、Dead
对于组管理协议，协调器有两个阶段：为gropu指定active成员并从它们之中选出leader consumer；让leader consumer制定分配方案并同步到其他组成员中

实现一次精确处理语义

精确处理依赖producer端和consumer端的处理语义，以及事务的支持
AK producer默认提供的是最少处理一次的语义
consumer端的提交语义和位移提交的时间有关，要实现精确一次提交需要依赖事务
0.11版本的AK 引入了幂等性producer，即消息可能被发送多次，但是在broker端只写入一次
幂等性采用类似TCP的传输形式，给发送到broker端的没批消息都赋予一个序列号，并且会保存在底层日志中，同时为每个producer配置一个id，该id和分区号构成key，序列号构成value，从而使用该映射消息避免消息的重复发送
AK在应用程序提供一个事务id的情况下能够保证跨应用程序会话间的幂等发送语义，支持跨会话间的事务恢复
consumer的事务支持要弱一些

管理AK集群

脚本管理略

API方式管理集群

服务器端API管理topic

public class ZkUtilServerTest {
    public static void main(String[] args) {
        //创建topic
        //创建与ZK的连接
        ZkUtils zkUtils = ZkUtils.apply("localhost:2181", 3000, 30000, JaasUtils.isZkSecurityEnabled());
        //创建一个单分区、单副本、名为t1的topic，未指定topic级别的参数，所以传的空的properties
        //RackAwareMode.Enforced$.MODULE$等同于指定了RackAwareMode.Enforced，表示考虑机架位置
        AdminUtils.createTopic(zkUtils, "t1", 1, 1, new Properties(), RackAwareMode.Enforced$.MODULE$);


        //删除topic
        AdminUtils.deleteTopic(zkUtils, "t1");

        //查询topic级别的属性
        Properties props = AdminUtils.fetchEntityConfig(zkUtils, ConfigType.Topic(), "t1");
        Iterator> iterator = props.entrySet().iterator();
        while (iterator.hasNext()) {
            Map.Entry next = iterator.next();
            Object key = next.getKey();
            Object value = next.getValue();
            System.out.println(key + "=" + value);
        }

        //变更topic级别的参数
        props.setProperty("min.cleanable.dirty.ratio", "0.3");

        AdminUtils.changeTopicConfig(zkUtils, "test", props);
        zkUtils.close();

        //查询当前集群下所有consumer group的信息
        Properties properties = new Properties();
        properties.put("bootstrap.servers", "localhost:9092");
        AdminClient adminClient = AdminClient.create(properties);
        Map> nodeListMap = JavaConversions.mapAsJavaMap(adminClient.listAllGroups());
        for (Map.Entry> entry : nodeListMap.entrySet()) {
            Iterator groupOverviewIterator = JavaConversions.asJavaIterator(entry.getValue().iterator());
            while (groupOverviewIterator.hasNext()) {
                GroupOverview next = groupOverviewIterator.next();
                System.out.println(next.groupId());
            }
        }

        //查看指定group的位移消息
        Properties props1 = new Properties();
        props.put("bootstrap.servers", "localhostA:9092");
        AdminClient client = AdminClient.create(props1);
        String groupId = "a1";
        Map topicPartitionObjectMap = JavaConversions.mapAsJavaMap(adminClient.listGroupOffsets(groupId));
        Long offset = (Long) topicPartitionObjectMap.get(new TopicPartition("test", 0));
        System.out.println(offset);
        client.close();
    }
}

客户端API管理topic

/**
 * 客户端API管理
 */
public class ClientTest {

    //返送请求的主方法
    public ByteBuffer send(String host, int port, AbstractRequest request, ApiKeys apiKeys) throws IOException {
        Socket socket = connect(host, port);
        try {
            return send(request, apiKeys, socket);
        }finally {
            socket.close();
        }
    }

    //建立连接
    private Socket connect(String host, int port) throws IOException {
        return new Socket(host, port);
    }


    //向给定的Socket发送请求
    private ByteBuffer send(AbstractRequest request, ApiKeys apiKeys, Socket socket) throws IOException {
        RequestHeader header = new RequestHeader(apiKeys.id, request.version(), "client-id", 0);
        ByteBuffer buffer = ByteBuffer.allocate(header.sizeOf() + request.sizeOf());
        header.writeTo(buffer);
        request.writeTo(buffer);
        byte[] seializedRequest = buffer.array();
        byte[] response = issueRequestAndWaitForResponse(socket, seializedRequest);
        ByteBuffer responseBuffer = ByteBuffer.wrap(response);
        ResponseHeader.parse(responseBuffer);
        return responseBuffer;

    }
    //发送序列化请求并等待response返回
    private byte[] issueRequestAndWaitForResponse(Socket socket, byte[] request) throws IOException {
        sendRequest(socket, request);
        return getResponse(socket);
    }

    private byte[] getResponse(Socket socket) throws IOException {
        DataInputStream dis = null;
        try {
            dis = new DataInputStream(socket.getInputStream());
            byte[] bytes = new byte[dis.readInt()];
            dis.readFully(bytes);
            return bytes;
        } catch (IOException e) {
            if (dis != null) {
                dis.close();
            }
        }
        return null;
    }

    private void sendRequest(Socket socket, byte[] request) throws IOException {
        DataOutputStream dos = new DataOutputStream(socket.getOutputStream());
        dos.writeInt(request.length);
        dos.write(request);
        dos.flush();
    }

    //创建Topic
    public void createTopoics(String topicName, int partitions, short replicationFactor) throws IOException {
        Map topics = new HashMap<>();
        topics.put(topicName, new CreateTopicsRequest.TopicDetails(partitions, replicationFactor));
        int createionTimeoutMs = 60000;
        CreateTopicsRequest request = new CreateTopicsRequest.Builder(topics, createionTimeoutMs).build();
        ByteBuffer response = send("localhost", 9092, request, ApiKeys.CREATE_TOPICS);
        CreateTopicsResponse.parse(response, request.version());
    }

    //删除topic
    public void deleteTopics(Set topics) throws IOException {
        int deleteTimeoutMs = 30000;
        DeleteTopicsRequest request = new DeleteTopicsRequest.Builder(topics, deleteTimeoutMs).build();
        ByteBuffer response = send("localhost", 9092, request, ApiKeys.DELETE_TOPICS);
        DeleteTopicsRequest.parse(response, request.version());
    }

    //获取某个consumer group下所有topic分区的位移信息
    public Map getAllOffsetForGroup(String groupId) throws IOException {
        OffsetFetchRequest request = new OffsetFetchRequest.Builder(groupId, null).setVersion((short) 2).build();
        ByteBuffer response = send("localhost", 9092, request, ApiKeys.OFFSET_FETCH);
        OffsetFetchResponse resp = OffsetFetchResponse.parse(response, request.version());
        return resp.responseData();
    }

    //查询某个consumer group下的某个topic分区的位移
    public void getOffsetForPartition(String groupID, String topic, int partition) throws IOException {
        TopicPartition tp = new TopicPartition(topic, partition);
        OffsetFetchRequest request = new OffsetFetchRequest.Builder(groupID, Collections.singletonList(tp)).setVersion((short) 2).build();
        ByteBuffer response = send("localhost", 9092, request, ApiKeys.OFFSET_FETCH);
        OffsetFetchResponse resp = OffsetFetchResponse.parse(response, request.version());
        OffsetFetchResponse.PartitionData partitionData = resp.responseData().get(tp);
        System.out.println(partitionData.offset);
    }
}

0.11.0.0版本客户端API

0.11版本后，AK社区退出了AdminClient和KafkaAdminClient，统一所有的集群管理API。AdminClient是线程安全的。

public class AdminClientTest {

    private static final String TEST_TOPIC = "test-topic";

    public static void main(String[] args) throws ExecutionException, InterruptedException {
        Properties pros = new Properties();
        //kafaka集群信息
        pros.put(AdminClientConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092,localhost:9093");
        try (AdminClient client = AdminClient.create(pros)) {
            //描述集群信息
            describeCluster(client);
            createTopic(client);
            listAllTopics(client);
            describeTopics(client);
            alterConfigs(client);
            describeConfig(client);
            deleteTopics(client);
        }
    }

    private static void deleteTopics(AdminClient client) throws ExecutionException, InterruptedException {
        KafkaFuture futures = client.deleteTopics(Arrays.asList(TEST_TOPIC)).all();
        futures.get();
    }

    private static void describeConfig(AdminClient client) throws ExecutionException, InterruptedException {
        DescribeConfigsResult ret = client.describeConfigs(Collections.singleton(new ConfigResource(ConfigResource.Type.TOPIC, TEST_TOPIC)));
        Map configs = ret.all().get();
        for (Map.Entry entry : configs.entrySet()) {
            ConfigResource key = entry.getKey();
            Config value = entry.getValue();
            System.out.println(String.format("Resource type:%s,resource name:%s", key.type(), key.name()));
            Collection configEntries = value.entries();
            for (ConfigEntry each : configEntries) {
                System.out.println(each.name() + " = " + each.value());
            }
        }
    }

    private static void alterConfigs(AdminClient client) throws ExecutionException, InterruptedException {
        Config topicConfigs = new Config(Arrays.asList(new ConfigEntry("cleanup.policy", "compact")));
        client.alterConfigs(Collections.singletonMap(new ConfigResource(ConfigResource.Type.TOPIC, TEST_TOPIC), topicConfigs)).all().get();
    }

    private static void describeTopics(AdminClient client) throws ExecutionException, InterruptedException {
        DescribeTopicsResult ret = client.describeTopics(Arrays.asList(TEST_TOPIC, "__consumer_offsets"));
        Map topics = ret.all().get();
        for (Map.Entry entry : topics.entrySet()) {
            System.out.println(entry.getKey() + "=" + entry.getValue());
        }
    }

    private static void listAllTopics(AdminClient client) throws ExecutionException, InterruptedException {
        ListTopicsOptions options = new ListTopicsOptions();
        //包括内部topics，比如__consumer_offsets
        options.listInternal(true);
        ListTopicsResult topics = client.listTopics(options);
        Set topicNames = topics.names().get();
        System.out.println("Current topics in this cluster: " + topicNames);
    }

    private static void createTopic(AdminClient client) throws ExecutionException, InterruptedException {
        NewTopic newTopic = new NewTopic(TEST_TOPIC, 3, (short) 3);
        CreateTopicsResult ret = client.createTopics(Arrays.asList(newTopic));
        ret.all().get();
    }

    private static void describeCluster(AdminClient client) throws ExecutionException, InterruptedException {
        DescribeClusterResult ret = client.describeCluster();
        System.out.println(String.format("Cluster id: %s, controller: %s", ret.clusterId().get(), ret.controller().get()));
        System.out.println("Current cluster nodes info: ");
        for (Node node : ret.nodes().get()) {
            System.out.println(node);
        }
    }
}

常见异常

UnkonwTopicOrPartitionException：可重试异常，表示请求的分区不在抛出该异常的broker上，常见的原因有一下是三个

follower副本所在的broker在另一个broker成为leader之前率先完成了成为follower的操作，使得follower从leader拉取数据时发现leader broker上还未准备好数据，从而抛出异常，会在下一轮RPC中自动恢复

producer向不存在的topic发送数据，broker会封装该异常返回给producer，属于可重试异常，如果一直报错，查看auto.create.topics.enable参数

当启用ACL后，AK对未授权操作中topic一律返回异常，而非“无权访问”之类的错误
LEADER_NOT_AVAILABLE：表示对应分区没有leader，原因可能如下：

正在进行leader的选举，或者topic正在删除，如果一直报错，建议使用election脚本重新进行leader选举
NotLeaderForPartitionExcepton：和上面一样，一般是瞬时的错误

该异常主要是指当前broker已不是对应分区的leader broker，这通常发生在leader变更的情况下
TimeoutException：请求超时，确定是从producer端、broker端还是consumer端抛出的，哪里抛出的就增加哪里的request.timeout.ms参数的值，若亦然不管用，则需要考虑用户环境中的broker或clients是否负载过重，导致任务堆积不能被处理
RecordToolLargeException：常见于producer端，通常是因为producer应用的后台发送线程无法匹配用户主线程的消息创建速率。解决思路：

尽量避免producer实例

适当增加request.timeout.ms

适当减少batch.size

当producer端无法从AK集群获取元数据时，也会抛出这个异常，特别是对那些为正确配置链接的producer来说，此时需要查看bootstrap.servers的连接设置是否正确。同时要让AK集群处理大消息，需要调整三个参数：

broker端参数message.max.bytes：设置broker端能处理的最大消息长度

producer端参数max.request.size：设置producer端能处理的最大消息长度

consumer端参数fetch.max.bytes(新版本), fetch.message.max.bytes(旧版本)：设置consumer端能处理的最大消息长度

broker端参数socket.request.max.bytes：设置broker端Socket请求的最大字节数。通常用户不需要额外配置该参数，但如果AK发送超过100MB的超大消息，则必须需要调整该参数
NetworkExcetpin：通常是producer端抛出，可能是因为工作过程中中断了某个broker的连接，属于可重试异常
ILLEGAL_GENERATION：这是新版本consumer抛出的异常，表明当前consumer错过了正在进行的rebalance，原因是该consumer花费了大量的时间处理poll返回的数据。用户需要适当减少max.poll.records值以及增加max.poll.interval.ms值。对于老版本的AK，需要减少max.partition.fetch.bytes参数的值

你可能感兴趣的:(java学习,JavaWeb)

对象的行为-状态影响行为，行为影响状态 Java版蜡笔小新 java 学习开发语言
小白Java学习记录4一周掌握Java入门知识学习内容：对象的行为学习产出：你可以传值给方法d.bark(3);方法会运用形参。调用的一方会传入实参。实参是传给方法的值。当传入放后就成了形参。参数跟局部（local）变量是一样的。它有类型与名称，可以在方法内运用。重点是：如果某个方法需要参数，你就一定得传东西给它。那个东西得是适当类型的值。Dogd=newDog（）；d.bark（3）；voidb
Tomcat从入门到精通：全方位深度解析与实战教程墨瑾轩一起学学Java【一】运维 tomcat java
一、Tomcat入门1.Tomcat简介ApacheTomcat，简称Tomcat，是一个开源的轻量级应用服务器，专为运行JavaServlet和JavaServerPages(JSP)技术设计。它是JavaWeb开发中最常用的Servlet容器之一，遵循JavaServlet和JavaServerPages规范，为开发者提供了一个稳定的、易于使用的部署环境。2.安装与启动安装下载最新版Tomca
【Java学习日记6】：字面量的分类与使用小蛋6g Java学习日记 java 开发语言
一、字面量的定义与作用字面量是程序中直接书写的数据值，无需通过变量或计算获取。它用于表示固定的值，如数字、字符、布尔值等，例如：数字100、字符串"Hello"、字符'A'等。字面量告诉编译器数据的类型和值。字面量就是告诉程序员:数据在程序中的书写格式.---二、字面量的分类Java中的字面量按数据类型可分为以下六类：类型说明示例整数类型不带小数点的数字123,-456小数类型带小数点的数字3.1
网络编程、URI和URL的区别、TCP/IP协议、IP和端口、URLConnection 述雾学java Java核心基础 tcp/ip java java基础网络编程
DAY12.1Java核心基础网络编程在互联网时代，网络在生活中处处可见，javaWeb占据了很大一部分那如何实现javaWeb编程呢？Web编程就是运行在同一个网络下面的终端，使得它们之间可以进行数据传输计算机网络基本知识计算机网络是通过硬件设施，传输媒介把不同物理地址上的计算机网络进行连接，形成一个资源共享和数据传输的网络系统两台终端进行连接需要遵守规定的网络协议语法：数据信息的结构语义：描述
【＜二＞丹方改良：Spring 时代的 JavaWeb】之 Spring Boot 中的 RESTful API 设计：从上手到骨折 Foyo Designer spring spring boot restful Spring MVC Async CrossOrigin
点击此处查看合集https://blog.csdn.net/foyodesigner/category_12907601.html?fromshare=blogcolumn&sharetype=blogcolumn&sharerId=12907601&sharerefer=PC&sharesource=FoyoDesigner&sharefrom=from_link一、开篇整活儿咱今儿个唠唠Spr
Java Web开发技术解析：从基础到实践的全栈指南以恒1 java 前端开发语言
JavaWeb开发技术解析：从基础到实践的全栈指南在互联网技术演进中，JavaWeb凭借其跨平台特性、成熟的生态系统和强大的企业级服务能力，成为构建动态Web应用的核心技术栈。本文从技术组成、开发工具、实战应用三个维度，全面解析JavaWeb的完整技术体系，并结合最新行业实践探讨其演进方向。一、JavaWeb的核心技术组成JavaWeb开发以Servlet和JSP为基石，通过分层架构实现动态网页生
JAVA学习-练习试用Java实现“对大数据集中的网络日志进行解析和异常行为筛查” 守护者170 java学习 java 学习
问题：编写一个Spark程序，对大数据集中的网络日志进行解析和异常行为筛查。解答思路：下面是一个简单的Spark程序示例，用于解析网络日志并筛查异常行为。这个示例假设日志文件格式如下：timestamp,ip_address,user_id,action,event,extra_info2023-01-0112:00:00,192.168.1.1,123,login,success,none202
JAVA学习-练习试用Java实现“实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选” 守护者170 java学习 java 学习
问题：实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选。解答思路：要实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选，需要按照以下步骤进行：1.环境准备确保的环境中已经安装了ApacheSpark。可以从[ApacheSpark官网](https://spark.apache.org/downloads.html)下载并安装。2.创建Spark应用以下是
【＜二＞丹方改良：Spring 时代的 JavaWeb】之 Spring MVC 的核心组件：DispatcherServlet 的工作原理 Foyo Designer spring mvc java servlet HandlerMapping ViewResolver
点击此处查看合集https://blog.csdn.net/foyodesigner/category_12907601.html?fromshare=blogcolumn&sharetype=blogcolumn&sharerId=12907601&sharerefer=PC&sharesource=FoyoDesigner&sharefrom=from_link一、DispatcherServ
JDK8 Stream 数据流效率分析，Java开发你需要了解的那些事气质大叔程序员后端面试 java
此外还有一系列特化流，如IntStream，LongStream，DoubleStream等），Java8引入的的Stream主要用于取代部分Collection的操作，每个流代表一个值序列，流提供一系列常用的聚集操作，可以便捷的在它上面进行各种运算。集合类库也提供了便捷的方式使我们可以以操作流的方式使用集合、数组以及其它数据结构；作为阅读福利，小编也整理了一些Java学习笔记（包含面试真题+脑图
Java WebSocket与项目页面（通常是HTML + JavaScript）之间建立连接并传输数据 hh_fine java websocket html
JavaWebSocket与项目页面（通常是HTML+JavaScript）之间建立连接并传输数据1.创建JavaWebSocket服务器：使用JavaWebSocketAPI创建一个WebSocket服务器端点。2.在HTML页面中使用JavaScript连接WebSocket：通过JavaScript的WebSocketAPI与JavaWebSocket服务器建立连接。3.双向数据传输：实现服
【含文档+PPT+源码】基于微信小程序农家乐美食餐厅预约推广系统编程毕设微信小程序美食小程序
项目介绍本课程演示的是一款基于微信小程序农家乐美食餐厅预约推广系统，主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Java学习者。1.包含：项目源码、项目文档、数据库脚本、软件工具等所有资料2.带你从零开始部署运行本套系统3.该项目附带的源码资料可作为毕设使用该系统功能架构图如下：技术栈说明技术栈：后端：SpringBoot+Vue+ElementUI（后端是前后端分离的）前端：Un
【含文档+PPT+源码】基于SpringBoot+vue的疫苗接种系统的设计与实现小咕聊编程 spring boot 后端 java
项目介绍本课程演示的是一款基于SpringBoot+vue的疫苗接种系统的设计与实现，主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Java学习者。1.包含：项目源码、项目文档、数据库脚本、软件工具等所有资料2.带你从零开始部署运行本套系统3.该项目附带的源码资料可作为毕设使用疫苗接种系统包括管理员登录、用户管理、疫苗信息管理、疫苗接种管理、接种管理、疫苗百科知识管理、消息通知管理、
Java学习--关键字月色很柔 Java 学习 java
Java学习--关键字前言关键字finalstaticsuperthis实现前言本文主要参考：here;若需要可直接前往学习。关键字final、Static、super、this…final区分final、finally、finalize：理解final的含义：final意为最终的含义，用来修饰类、方法和变量。修饰类：publicfinalclassClassName{}被final修饰的类不能被
Java学习------static、final、this、super关键字日暮南城故里 Java学习记录 java 学习
1.static关键字static修饰的变量叫做静态变量。当所有对象的某个属性的值是相同的，建议将该属性定义为静态变量，来节省内存的开销。静态变量在类加载时初始化，存储在堆中。static修饰的方法叫做静态方法。所有静态变量和静态方法，统一使用“类名.”调用。静态方法中不能使用this关键字。因此无法直接访问实例变量和调用实例方法。静态代码块在类加载时执行，一个类中可以编写多个静态代码块，遵循自上
【＜二＞丹方改良：Spring 时代的 JavaWeb】之 Spring Boot 的起步依赖：快速构建 JavaWeb 项目 Foyo Designer spring spring boot java Spring Data JPA JUnit
点击此处查看合集https://blog.csdn.net/foyodesigner/category_12907601.html?fromshare=blogcolumn&sharetype=blogcolumn&sharerId=12907601&sharerefer=PC&sharesource=FoyoDesigner&sharefrom=from_link一、起步依赖：SpringBoo
Java Web开发核心内容全解析（上）风铃儿~ java servlet mybatis
一、JavaWeb概述JavaWeb是指使用Java技术来解决相关web互联网领域的技术总和。在当今数字化时代，JavaWeb在构建企业级应用、电子商务平台、社交网络等方面发挥着至关重要的作用。（一）JavaWeb的体系结构JavaWeb应用的体系结构主要分为客户端层、表示层、业务逻辑层和数据访问层。1.客户端层-这是用户与Web应用交互的最前端。主要包括用户浏览器，它可以接收并显示从服务器端发送
Java学习笔记（二十二）路上阡陌 java 学习笔记
1Redis是单线程的那如何处理多个客户端发送的命令Redis虽然是单线程的，但它能够高效地处理多个客户端发送的命令，这主要得益于其内部使用的I/O多路复用技术和事件驱动模型。以下是Redis处理多个客户端命令的详细解释：1.1I/O多路复用技术Redis通过使用I/O多路复用技术，能够同时监听多个客户端连接上的I/O事件。当任何一个客户端连接上有读、写或异常等I/O事件发生时，I/O多路复用机制
Tomcat 新手入门指南：从零开始掌握安装与配置超级小狗 tomcat java
Tomcat新手入门指南：从零开始掌握安装与配置一、Tomcat是什么？ApacheTomcat是一个开源的轻量级Web应用服务器，专为运行JavaServlet和JSP设计。它是初学JavaWeb开发的必备工具，也是企业级应用的常见选择。核心功能：处理HTTP请求、管理Servlet生命周期、支持动态网页渲染。适用场景：开发测试环境、中小型Web应用部署、微服务架构中的容器化组件。二、快速安装T
Java学习总结归纳 eyes______ java 学习开发语言
202402150625卢芊涵一、第一章：初始java与面向对象程序设计1.1java概述1.1.1计算机编程语言发展史：编程语言从早期的机器语言，逐步发展到汇编语言，再到高级语言。机器语言是二进制代码，直接由计算机硬件执行，但可读性和可维护性极差；汇编语言使用助记符代替二进制指令，一定程度上提高了可读性；高级语言如Java则更接近人类语言，提高了开发效率。例如，机器语言可能是一串010101，而
SpringMVC简化了什么？从传统Web开发到现代高效架构的蜕变以恒1 前端架构 hive
SpringMVC简化了什么？从传统Web开发到现代高效架构的蜕变在JavaWeb开发领域，SpringMVC作为Spring框架的核心模块，通过组件化设计和注解驱动，彻底改变了传统Servlet开发的繁琐流程。本文将从开发流程、代码复杂度、技术整合等维度，系统解析SpringMVC的简化逻辑，并结合实际案例说明其价值。一、请求处理流程的简化：从分散到集中传统Servlet开发需要为每个请求编写独
【＜二＞丹方改良：Spring 时代的 JavaWeb】之 Spring Boot 的自动配置：约定优于配置的设计美学 Foyo Designer spring spring boot java HikariCP Logback
点击此处查看合集https://blog.csdn.net/foyodesigner/category_12907601.html?fromshare=blogcolumn&sharetype=blogcolumn&sharerId=12907601&sharerefer=PC&sharesource=FoyoDesigner&sharefrom=from_link一、SpringBoot的自动配
JavaWeb学习——登录校验灰太狼想上班 JavaWeb基础学习 spring tomcat servlet 后端
JavaWeb学习——登录校验一、功能实现只需要接受请求参数username和password，然后调用接口在数据库表中查询键值匹配的数据项即可二、登录校验登录校验通常分为两步，一是登录标记，二是统一拦截1、会话跟踪会话：用户打开浏览器，访问web服务器的资源，会话建立，知道有一方断开连接，会话结束。在一次会话中可以包含多次请求和响应会话跟踪：一种维护浏览器的方法，服务器要识别多次请求是否来自于同
javaweb中@Component和@Mapper和@Service和@RestController这几个注解要加在哪?为什么? 瑞金彭于晏 maven java spring boot spring
在JavaWeb开发中特别是在使用Spring框架（包括SpringBoot）时，@Component、@Mapper、@Service、@RestController这些注解扮演着非常重要的角色，它们用于定义组件的类型，并帮助Spring框架进行自动装配和依赖注入。下面分别解释这些注解应该加在哪里以及为什么：1.@Component加在哪里：@Component可以加在任何类上，表示这个类是一个
java 对象和变量的区别_JAVA中的类／对象／变量／方法／参数含义及区别和联系... 抱玉于浮光 java 对象和变量的区别
JAVA学习了半月有余，最开始对这些东西的定义还是很清晰的，但越往后面，前面的东西没那么清晰了，返回来在看这些定义，为了以后方便查阅，现在摘录一下，放在这儿。类：类是组成java程序的基本要素。类封装了一类对象的属性和方法。类是用来定义产生对象的模板。类的实现包括两部分：类声明和类体。类体分为两部分：成员变量和局部变量。1、成员变量和局部变更的类型可以是java中的任何一种数据类型.变量定义部分所
计算机毕设论文灵魂模块：系统架构图设计终极指南（附资料）计算机毕业设计小帅课程设计毕业设计 java 系统架构
【关注我，毕业设计不迷茫】|6年辅导经验|帮助1200+学子顺利毕业大家好，我是程序员小帅，一名专注于计算机毕业设计全流程辅导的技术博主。专注JavaWeb,我深耕毕设领域6年，累计输出1200+原创项目案例，辅导成功率接近100%。如果你正在为选题、代码、论文或答辩发愁，这里能给你最落地的解决方案！为什么架构图是毕设的灵魂？1️⃣展示系统思维：用一张图说清技术选型逻辑2️⃣设计说明书：开发前必须
Java学习笔记1.1_初识 Java 火车爱上轨道 Java编程语言基础 java 学习
初识Java前言一、Java概述1.什么是程序2.Java语言的产生和发展史3.Java可以做什么4.Java语言的特点二、Java语言环境搭建1.JDK、JRE、JVM关系2.安装JDK3.配置环境变量4.环境测试三、开发第一个Java程序1.开发Java程序的步骤2.用记事本开发Java程序四、Java程序的注释1.单行注释和多行注释2.文档注释五、Java程序的结构六、JavaAPI文档前言
Java 基础到进阶&企业技巧（二） Aphelios380 开发语言 java 学习 idea 学习方法
在Java学习的旅程中，我们逐步探索了其丰富的知识体系，从基础的数据类型、字符串操作，到流程控制、运算符的运用，每一步都为我们构建强大的编程能力奠定基石。同时，了解这些知识在Java全栈开发中的应用场景，对未来进入企业工作至关重要。目录一、字符串1.底层原理与语法2.字符串位置与拼接3.字符串数组操作二、人机交互1.接收输入-Scanner类2.课堂练习三、字符与编码1.char字符2.面试题：字
N个utils(处理日期) 庖丁解java java
解释一下为什么会在java学习教程中放js的代码.1,最直接的肯定是我有时候会写js,而一些经典的逻辑,又不想新开前端文章,索性就放一起.2,java的面向对象太完善了,这也是我写文章的原因,导致写java代码很难学习到面向过程的编程思想,正好,原生js的代码,很大程度上写起来用的思维方式,很雷同面向过程的思考方式.算个补全,对写java代码,理解java代码,大有裨益.(这不是作者胡乱找补,写j
JavawebJavaServer Pages Standard Tag Library知识点一朵忧伤的蔷薇 python java 开发语言
JavaWeb开发中，JSTL（JavaServerPagesStandardTagLibrary）、EL（ExpressionLanguage）、Cookie和Session是非常重要的组件。以下是这些知识点的总结：1.JSTL标签库JSTL是JavaServerPages的一种标准标签库，旨在简化JSP页面的开发。它通过提供预定义的标签，来实现常见任务，如条件判断、循环处理、国际化等。使用标签
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts