【原创】心跳包对状态机的影响


本文以 rabbitmq-c 使用的 AMQP 协议为例说明 heartbeat 对协议状态机的影响。而实际上该问题具有一定普适性。

背景:基于rabbitmq-c源码改造了基于libevent实现的版本,增加了部分功能(一些属性的支持),也省略了部分功能(原代码中的心跳处理)。
问题:在后续需要使用 AMQP 心跳协议进行保活时,发生了状态机遗漏和错乱的情况。

图例
【原创】心跳包对状态机的影响_第1张图片

没有考虑 heartbeat 情况下,rabbitmq Producer 的最简状态转换
【原创】心跳包对状态机的影响_第2张图片

rabbitmq Consumer 的最简状态转换
【原创】心跳包对状态机的影响_第3张图片

简单观察上面的状态切换是发现不了问题的,下给出结合 代码状态机实现 + 实际网络情况 的图示。

没有考虑 heartbeat 情况下,给出 rabbitmq  Producer  状态转换时 FSM 的稳态以及可能出现网络卡顿的地方。
【原创】心跳包对状态机的影响_第4张图片

rabbitmq Consumer 状态转换时 FSM 的稳态以及可能出现网络卡顿的地方。
【原创】心跳包对状态机的影响_第5张图片

上面图中的 稳态 是指 FSM 实现中的某个稳定状态(一般来说,无限循环的状态机都至少应该有一个稳态);而 网络卡顿 是指由于网络原因或服务器原因导致的协议包延迟到达的现象。

      在 事件驱动+FSM 的实现模型下,遇到网络卡顿时,可以对超时情况进行记录,并重新触发新一轮的状态处理。就上面的 consumer 而言,当处于 basic.deliver 状态下,在指定时间内没有收到对应协议帧时,只需要重新进入该状态再次等待接收该协议帧即可。

当添加了 heartbeat 处理后,状态机变化如下:

rabbitmq  Producer  状态转换时 FSM 的稳定态以及可能出现网络卡顿的地方。
【原创】心跳包对状态机的影响_第6张图片

rabbitmq  Consumer   状态转换时 FSM 的稳定态以及可能出现网络卡顿的地方。
【原创】心跳包对状态机的影响_第7张图片

可以看到,情况变的稍微复杂了点。这种情况下,需要程序能够处理
  • 针对 heartbeat 超时次数进行统计
  • 需要统一发送态下 heartbeat 超时时间和接收态下 heartbeat 超时时间(Producer中的情况),否者会出现判定错误
  • 需要在处理 heartbeat 协议帧前,正确记录当前的状态,以便后续重新恢复到该状态
另外值得说一句的是,FSM 中的稳态其实是和代码实现强相关的,就像上面图中 Producer 的稳态就实现在了 idle 中,而 Consumer 的稳态却安排在了 basic.deliver 。而会出现网络卡顿的点也需要仔细考量。




你可能感兴趣的:(rabbitmq,状态机,hearbeat)