基于Dynomite的分布式延迟队列

最近看了Dyno-queues分布式延迟队列的源码，发现了一些不错的技巧，而本文是对Dyno-queues架构精华的总结。
本文是根据 https://medium.com/netflix-techblog/distributed-delay-queues-based-on-dynomite-6b31eca37fbc 翻译而来，如果有不准之处请大家多包含。

在Netflix的平台上运行着许多的业务流程，这些流程的任务是通过异步编排进行驱动，现在我们要实现一个分布式延迟队列，这个延迟队列具有如下特点：

分布式
不用外部的锁机制
高并发
至少一次语义交付
不遵循严格的FIFO
延迟队列（消息在将来某个时间之前不会从队列中取出）
优先级

一、使用Dynomite和Redis构建队列

Dynomite是一种通用的实现，可以与许多不同的key-value存储引擎一起使用。目前它提供了对Redis序列化协议（RESP）和Memcached写协议的支持。我们选择Dynomite，是因为其具有性能，多数据中心复制和高可用性的特点。此外，Dynomite提供分片和可插拔的数据存储引擎，允许我们在数据需求增加垂直和水平扩展。

1、为什么选择Redis？

我们选择Redis作为构建队列的存储引擎：

Redis架构通过提供构建队列所需的数据结构很好地支持了队列设计，同时Redis的性能也非常优秀，具备低延迟的特性
Dynomite在Redis之上提供了高可用性、对等复制以及一致性等特性，用于构建分布式集群队列。

一个队列被存储为Redis的有序集合（ZADD和ZRANGE等操作），Redis使用分数对有序集合中的成员进行排序，当往队列中存储数据时，根据优先级和超时时间计算分数。

2、使用Redis实现数据的push和pop

对于每个队列，维护三组Redis数据结构：

包含队列元素和分数的有序集合
包含消息内容的Hash集合，其中key为消息ID。
包含客户端已经消费但尚未确认的消息有序集合，Un-ack集合。

PUSH

根据消息超时（延迟队列）和优先级计算得分
添加到队列的有序集合
将Message对象到Hash集合中，key是messageId。

POP

计算当前时间为最大分数。
获取分数在0和最大分数之间的消息。
将messageID添加到unack集合中，并从队列的有序集中删除这个messageID。
如果上一步成功，则根据messageID从Redis集合中检索消息。

ACK

从unack集合中删除messageID。
从Message有效集合中删除messageID。
客户端未进行确认的消息，会被再度推回到队列中（这是一个定时任务负责检测）。

3、可用分区和机架意识

我们的队列是在Dynomite的JAVA客户端Dyno之上建立的，Dyno为持久连接提供连接池，并且可以配置为拓扑感知，此外，Dyno为应用程序提供特定的本地机架（在AWS中，机架是一个区域，例如 us-east-1a、us-east-1b等）,us-east-1a的客户端将连接到相同区域的Dynomite/Redis节点，除非该节点不可用，在这种情况下该客户端将进行故障转移。这个属性被用于通过区域划分队列。

分片
队列根据可用区域进行分片，将数据推送到队列时，通过轮训机制确定分片，这种机制可以确保所有分片的数据是平衡的，每个分片都代表Redis中的有序集合，有序集中的key是queueName和AVAILABILITY _ZONE的组合。

避免全局锁

image.png

每个节点（上图中的N1...Nn）与可用性区域具有关联性，并且与该区域中的redis服务器进行通信。
Dynomite / Redis节点一次只能提供一个请求，Dynomite可以允许数千个并发连接，但是请求是由Redis中的单个线程处理，这确保了当发出两个并发调用从队列轮询元素时，是由Redis服务器顺序执行，从而避免任何本地或分布式锁。
在发生故障转移的情况下，确保没有两个客户端连接从队列中获取相同的消息。

处理Un-ACK的消息
后台进程监视UNACK集合中的消息，这些消息在给定时间内未被客户端确认（每个队列可配置）。这些消息将移回到队列中。

Dyno-queues分布式延迟队列的github地址是：
https://github.com/Netflix/dyno-queues

基于Dynomite的分布式延迟队列

一、使用Dynomite和Redis构建队列

1、为什么选择Redis？

2、使用Redis实现数据的push和pop

3、可用分区和机架意识

你可能感兴趣的:(基于Dynomite的分布式延迟队列)