Chandy-Lamport算法

全局一致性快照机制

网上文章已经很多了,这里只做以前阅读paper的总结。

如何确定分布式系统中事件的先后顺序

这个问题要解决的是如何决定快照是属于哪一时间范围的,那么在flink中是通过发送事件消息来决定分布式快照的时间一致性,这也是要首先理解逻辑时钟的一个原因。

Chandy-Lamport算法

前提

  • 通道与进程不会出现故障,通信可靠

  • 通道是单向FIFO通道

  • 任意两进程有一个通道连接

  • 任意进程可在任意时间开始一个全局快照

  • 快照异步执行

消息

  • 接受消息
    从其他进程发送的消息
  • 发送消息
    向其他进程发送的消息
  • marker消息
    标记消息

Chandy-Lamport算法

  • 发起Marker(假设此节点为Node i)
1. 节点对本地进程生成快照,然后给所有其他节点发送一条消息
2. 对于所有从其他节点发送过来的消息,和本地快照一并记录下来;
3. 如果此节点收到了从Node j (j != i)发送过来的一条消息,则停止记录信道Node j->Node i上的消息。

接受Marker节点Node j (j != i)


1. 如果Node j第一次从信道Ck->j (k != j)上收到了消息,则对本地进程生成快照,然后给所有其他节点发送一条消息;
2. 对于所有从其他节点l (l != k)发送过来的消息,和本地快照一并记录下来;
3. 如果此节点上收到了从Node l (l != k)发送过来的一条消息,则停止记录信道Node l->Node j上的消息。
  • 快照完成
当所有的节点都从其他节点收到了以后,算法停止,分布式系统的快照生成完成。
在一个系统中可以有多个快照同时进行,发起节点也可以不同,只要在发起快照时给它赋予一个全局唯一的ID,然后发起节点把这个ID附在消息上,同时每个节点在做本地快照时在快照副本上记录这是对于哪一个ID生成的副本,然后也把ID附在发送出的消息上。

image.png

你可能感兴趣的:(Chandy-Lamport算法)