Apache Pulsar 之 Dead Letter Topic

本文为原创文章，转载请注明出处

在之前的文章 Apache Pulsar 之 TTL 与 Retention 策略中提到过 "死信队列"，它与 TTL 策略有一个共同点，就是可以将 consumer 未确认的消息转变到确认的状态，但是二者的处理方式又有所不同，这篇文章，将和大家探讨一下，Pulsar 中 “死信队列” 是如何工作的。

在任何一个分布式系统中，都没有办法保证不出错，系统能提供的是，当你遇到错误时，如何更好的提供保障机制，“死信队列” 就是这样的一个存在，由于某些原因消息无法被正确的投递，为了确保消息不会被无故的丢弃，一般将其置于一个特殊角色的队列，这个队列一般称之为死信队列。

在 Pulsar 中，提供了一个 DeadLetterPolicy 用来实现 “死信队列”，具体如下：

public class DeadLetterPolicy {
    private int maxRedeliverCount;
    private String deadLetterTopic;
}

它包含了两个参数 maxRedeliverCount 和 deadLetterTopic 。

maxRedeliverCount

当 consumer 端消费消息出错时，默认情况下，某些消息会尽可能多次重新发送，甚至可能永远不会停止。为了避免这种情况发生，DeadLetterPolicy 提供了一个参数 maxRedeliverCount 来覆盖此行为。用户可以自己设置，在消息出错时，我将最多继续尝试发送多少次，如果达到用户设置的最大值，消息还没有成功发送，此时 Pulsar 会将消息推送到 “死信队列” 中。

注意：此时该条 message 会从未确认转换为已确认的状态

deadLetterTopic

这个参数提供给用户来设置 “死信队列” 的名字，其本质是一个 topic 的 name。默认情况下，“死信队列” 的 topic name 形如：{TopicName}-{Subscription}-DLQ。

对于一条消息来说，只有当 consumer 接收并确认这条消息，才算完成消费动作。同样，Pulsar 也给用户提供了消息确认的接口：Ack 。但有些情况下，可能由于网络抖动，consumer 暂时性的故障等，导致 ack 的时间理论上会无限长。这种情况同样可能在 “死信队列” 中发生，如果用户在启动 consumer 时，并没有设置 ack timeout（默认不开启，这就意味着，除非当前的 consumer crash 掉，否则消息将永远不会再次被投递到 consuemr），那么 maxRedeliverCount 中提到的消息最大投递次数，其实并没有生效。为了避免这种情况发生，Pulsar 提供了另一个消息确认的接口：AckTimeout 即可以让用户自己设定 timeout 的时间为多长。如果用户没有设定 timeout 的时长，在 “死信队列” 中，该时长将被自动设置为：30s，来确保 “死信队列” 能够正常工作。

下面是一个使用示例，供大家参考：

 Consumer consumer = pulsarClient.newConsumer(Schema.BYTES)
                .topic(topic)
                .subscriptionName("my-subscription")
                .subscriptionType(SubscriptionType.Shared)
                .ackTimeout(3, TimeUnit.SECONDS)
                .receiverQueueSize(100)
                .deadLetterPolicy(DeadLetterPolicy.builder() //启用死信队列功能
                        .maxRedeliverCount(maxRedeliveryCount)//在进入死信队列之前，消息最多被重新投递的最大次数
                        .deadLetterTopic("persistent://my-property/my-ns/dead-letter-custom-topic-my-subscription-custom-DLQ")// 死信队列的topic name
                        .build())
                .subscriptionInitialPosition(SubscriptionInitialPosition.Earliest)
                .subscribe();

当消息进入 “死信队列” 后，用户可以根据自己的需求，对消息做相应的处理。

nack VS ackTimeout

上面提到，在消息进入 “死信队列” 之前，用户可以设置该消息将继续被重新投递多少次，但是每次投递的时长，由 ack timeout 来控制。在很多情况下，对于特定消息的出错情况，应用程序很难自己做处理，pulsar 目前提供了以下方式来供用户选择：

ackTimeout

如果消息被正常投递到应用程序，但是在 timeout 的时间内，并没有收到 ack，此时将会触发重新传递消息。ackTimeout 的主要问题在于它和应用程序是强绑定的。在大多数情况下，1 分钟的 ack timeout 是一个非常好的值，但如果处理平均需要3分钟，则会多次触发每条消息的重新发送...因此，默认情况下无法启用 ack-timeout。

手动处理

阻塞当前消费，做重试的处理。这种方式可能存在的问题如下：

可能只有一条消息失败（可能是临时的），而其余的消息都很好。在这种情况下，需要阻塞 consumer 来处理所有消息，直到这个出错的消息通过。
可能只是其中一个 consumer 出现故障，其它 consumer 处于正常状态。

Nack

基于上述场景，相对理想的情况是当消息出错需要处理时，用户可以将该条消息 nack 掉，并触发重传机制。所以在启用 死信队列 的功能之后，用户可以通过 ack-timeout 或者 nack 两种方式来将消息路由到 “死信队列” 中。nack 和 ack-timeout 的重传机制是一样的，二者可以结合使用，需要注意的是，nack 的操作需要发生在 ack-timeout 之前。

note: 目前 “死信队列” 只支持了 shared 的订阅类型，当前版本：2.3.1

Apache Pulsar 之 Dead Letter Topic

nack VS ackTimeout

你可能感兴趣的:(Apache Pulsar 之 Dead Letter Topic)