【RocketMQ】开启DLedger高可用之后的坑:性能骤降30倍

最近在做性能测试的时候发现,当集群开启了DLedger高可用之后,性能很差,TPS相差有30倍之多,详细过程记录如下:

集群信息
集群1:版本4.7.1,3Master,每个Master两个Slave,单Broker8G内存,异步复制,异步刷盘

集群2:所有配置一样,不同点是开启了DLedger

压测结果

使用相同参数进行压测:线程数:128,消息大小:128byte,压测结果对比如下:

集群1:
【RocketMQ】开启DLedger高可用之后的坑:性能骤降30倍_第1张图片
集群2:
【RocketMQ】开启DLedger高可用之后的坑:性能骤降30倍_第2张图片
可以看到,开启DLedger之后,性能骤降30倍,TPS只有3000+,有点懵,于是怀疑是否是集群2的配置错了,检查了一下集群2的Broker配置:

【RocketMQ】开启DLedger高可用之后的坑:性能骤降30倍_第3张图片

检查了配置,确定了是ASYNC_MASTER,但是从console看到的却不一样

【RocketMQ】开启DLedger高可用之后的坑:性能骤降30倍_第4张图片
可以看到运行时的Broker配置已经被改成了SYNC_MASTER的

于是带着疑问,看了一下代码

【RocketMQ】开启DLedger高可用之后的坑:性能骤降30倍_第5张图片

可以看到,LEADER角色的Broker,角色会被改成SYNC_MASTER

那为何会这样呢?

官方GitHub有两个issues:
https://github.com/apache/rocketmq/issues/2583
【RocketMQ】开启DLedger高可用之后的坑:性能骤降30倍_第6张图片

https://github.com/apache/rocketmq/issues/2278
【RocketMQ】开启DLedger高可用之后的坑:性能骤降30倍_第7张图片

大致的原因:开启DLedger之后,由于使用了Raft协议来保证集群的一致性,由于Raft主从复制的原理,和原来的Master/Slave模式的不一样,如果使用了Raft协议,主从复制是由Master发起,主动向每个从节点同步消息,而异步的方式是由从节点发起,向主节点上报offset,主节点再根据offset向从节点同步,所以开启了DLedger后,配置了ASNYC_MASTER会不生效,在最新的4.8.0中使用了Pipeline模式和批量复制,性能有所提升。

于是我重新搭建了个4.8.0的DLedger集群,压测结果如下:
【RocketMQ】开启DLedger高可用之后的坑:性能骤降30倍_第8张图片
【RocketMQ】开启DLedger高可用之后的坑:性能骤降30倍_第9张图片
单机TPS能达到1.4W+,性能确实提升不少,但是相比普通的Master/Slave模式,还是损失了一半左右的性能。

你可能感兴趣的:(RocketMQ,RocketMQ,压测,TPS,linux)