立志欲坚不欲锐,成功在久不在速。
——张孝祥
大纲
Rebalance(针对集群消费模式)
(1)消费Group下的所有消费者
(2)Topic的所有Queue队列
(3)Queue分配策略
1.触发时机
(1)消费者启动
(2)消费者加入或者退出消费组
(3)定时触发Rebalance(10s)
2.举例
假设,一个topic中有4个队列,有一个Producer往4个队列中发数据,在集群消费中,在一个消费者分组中如果只有一个消费者。那么这个消费者肯定会消费4个队列,不然就会漏数据。
如果加入了一个Consumer2,这个时候就会触发一个Rebalance
(Consumer增加了触发),这2个消费者平均消费4个队列。
如果再加入了一个Consumer3,这个是否平均分不了,一般的处理,默认情况下,Consumer1消费两个,其他的消费一个。
如果再加入了一个Consumer4,刚好一对一,所以每个 Consumer消费一个队列。
如果再加入了一个Consumer5,消费者数据大于队列,那么Consumer5就消费不了数据,除非队列增加了,或者是说Consumer减少了才行。
所以当你启动多个消费者,如果消费者数量大于queue的数量,也只能有queue数量的消费者消费(就跟在软件公司内部找女朋友一样,狼多肉少)蛋糕都被吃完了,你没得吃了。这个其实就是消费并发度。消费并发度决定因素是queue的数量。
3.源码解读
这里讲到的是基于推模式的消费,也就是我们常用的消费模式。
DefaultMQPushConsumerImpl.start()方法
还是要进入MQClientInstance.start()方法
,在MQClientInstance.start()方法,有一个线程RebalanceService就是锁Rebalance。具体实现RebalanceService来做的,下面我们来看下。
RebalanceService
这里有一个针对MessageQueue的排序。
为什么这么设计。如果同一个分组的多个客户端,分布在不同的机器上(消费者的机器上),每台客户端都单独算,并且算出来的效果是一致的。
总体消费就是让每一个Consumer有同样的一个MessageQueue的视图,因为每个消费者的视图是一致的,那么在每个客户端算负载,算出来的结果当然就是一致的。这样就能保障之前的负载均衡的算出之前的效果。
对于Consumer1和Consumer2,经过统一的排序,在Consumer1客户端也好,还是Consumer2的客户端也好,算出来的结果是一致的。
Consumer1消费 queue1和queue2。Consumer2消费queue3和queue4。
对比Kafka,在消费的时候依赖Zookeeper,broker变动还要走选举之类,如果选不出或者比较卡,这个是否会导致负载不正常,负载不成功就不能正常的工作。
而RocketMQ的这种方式简单,并且高可用。
强一致性必定要牺牲高可用性,RocketMQ设计上更多偏向高可用。
消费者源码解读
我们知道,在消费的时候有两种模式,一个是并发消费,另外一种是顺序消费。
因为消费者的代码非常复杂,并且我认为没有必要全部读懂。所以我采取了一种偏向于大家都能听懂的高可用方式(牺牲读源码的全面性)读两个流程。
1.并发消费
(1)功能描述
>获取topic配置信息[GET_ROUTEINFO_BY_TOPIC]
>获取Group的ConsumerList[GET_CONSUMER_LIST_BY_GROUP]
>获取Queue的消费Offset[QUERY_CONSUMER_OFFSET]
>拉取Queue的消息[PULL_MESSAGE]
>更新Queue的消费Offset[UPDATE_CONSUMER_OFFSET]
>注销Consumer[UNREGISTER_CLIENT]
(2)部分源码解读
三个角色:消费者Consumer、 Borker、NameServer
NameServer主要记录了Borker上有哪些Topic。
>在消费者启动之后,第一步都要从NameServer中获取Topic相关信息。
这一步设计到组件之间的交互,RocketMQ使用功能号来设计的。
GET_ROUTEINFO_BY_TOPIC
我在idea上使用ctrl+H 查找功能。
很快就定位这段代码:
消费者拿到topic相关信息之后,第2步需要知道Topic中有哪些queue,并且消费的时候还跟消费者分组相关。所以这里就需要根据group获取相关信息。(这里有定时触发<默认10s一次>,同时在消费者启动的时候也会主动触发一次)
功能号:GET_CONSUMER_LIST_BY_GROUP
当我们拿到了消费者Group下的所有信息之后,这个就可以做分配,可以分配到比如自己这台消费者的应该要消费哪些主机上的哪些队列。
这个地方叫DoRebalance,同时这个DoRebalacne之前已经细讲(具体这里不细讲)。
确定了消费者的group、topic、还有queue之后,还需要知道从哪个位置开始消费。于是还需要获取Queue的Offset。
功能号:QUERY_CONSUMER_OFFSET
调用的地方RemoteBrokerOffsetStore类中fetchConsumeOffsetFromBroker
确定了消费者的group、topic、还有queue和需要获取Queue的Offset,就要正式开始拉取消息了。
送入的信息:topic、queueid、offset,
还有maxnum(每次拉取多少条消息),suspendtimeout 长轮询,Consumer拉消息请求在Broker挂起最长时间,单位毫秒默认值20000。
功能号:PULL_MESSAGE
拉到消息后,消费者就要进行消息的消费了。消费完了之后,要更新offset,这个时候也要发起调用。
功能号:UPDATE_CONSUMER_OFFSET
这个地方要注意有两种方式:
1、定时,默认5s提交。
2、前面步骤的拉取消息时会带入参数:commitoffset,这个时候也会更新。
最后的话,消费者关闭的话,也会调用
功能号:UNREGISTER_CLIENT
当然,生产者和和Broker之间还有心跳机制,这里就不多说了。
2.顺序消费
(1)功能描述
>获取topic配置信息[GET_ROUTEINFO_BY_TOPIC]
>获取Group的ConsumerList[GET_CONSUMER_LIST_BY_GROUP]
>加锁Queue[LOCK_BATCH_MQ]
>获取Queue的消费Offset[QUERY_CONSUMER_OFFSET]
>拉取Queue的消息[PULL_MESSAGE]
>更新Queue的消费Offset[UPDATE_CONSUMER_OFFSET]
>解锁Queue[UNLOCK_BATCH_MQ]
>注销Consumer[UNREGISTER_CLIENT]
(2)部分源码解读
顺序消费的主体步骤和并发消费差不多,主要的差别就是有一个加锁和解锁的过程。
>只要确定了是拉哪个queue。这个地方要加锁,加锁的目的就可以达到顺序性。在一个queue中消息是顺序的,当一个消费者确定了一个queue进行消费时,使用一个分布式锁机制,是不是就可以确定这个消费者的顺序性。
加锁Queue
LOCK_BATCH_MQ
同时发现,这个地方也有一个定时执行,20s,这个是周期性的去续锁。因为在broker端,这把的锁的时间也有一定的失效的,(默认60s),如果超过这个时间,这把锁就释放了。
Broker端针对这个的实现就是一个ReentrantLock而已。
解锁Queue
UNLOCK_BATCH_MQ
消费中常见问题
1.重复消息
RocketMQ生产也好,消费也好,有重试机制、重发队列等等,所以在网络情况不太好的情况下, RocketMQ避免不了消息的重复。
2.消费卡死
之前我讲到了消费的流程中,尤其是针对顺序消息,我们感觉上会有卡死的现象,由于顺序消息中需要到Broker中加锁,如果消费者某一个挂了,那么在Broker层是维护了60s的时间才能释放锁,所以在这段时间只能(消费者是消费不了的)在等待锁。
另外如果还有Broker层面也挂了,如果是主从机构,获取锁都是走的Master节点,如果Master节点挂了,走Slave消费,但是slave节点上没有锁,所以顺序消息如果发生了这样的情况,也是会有卡死的现象。
3.启动之后较长时间才消费
在并发消费的时候,当我们启动了非常多的消费者,维护了非常多的topic的时候、或者queue比较多的时候,你可以看到消费的流程的交互是比较多的(5~6步),要启动多线程,也要做相当多的事情,所以你会感觉要启动较长的时间才能消费。
还有顺序消费的时候,如果是之前的消费者挂了,这个锁要60秒才会释放,也会导致下一个消费者启动的时候需要等60s才能消费。
我是娆疆_蚩梦,让坚持成为一种习惯,感谢各位大佬的:点赞、收藏和评论,我们下期见!
上一篇:RocketMQ源码解读之Store
下一篇:RocketMQ常见问题分析以及性能优化