FLink Checkpoint 介绍

FLink Checkpoint 介绍

前提假设

这一篇主要整理下Lightweight Asynchronous Snapshots for Distributed Dataflows 知识点。

算法的前提:

  • Network channels are quasi-reliable, respect a FIFO delivery order and can be blocked and unblocked. When a channel is blocked all messages are buffered but not delivered until it gets unblocked.
  • Tasks can trigger operations on their channel com- ponents such as block, unblock and send messages Broadcasting messages is also supported on all out- put channels.
  • Messages injected in source tasks (i.e. stage barri- ers) are resolved into a “Nil” input channel.

无环ABS

16231222245758.jpg

算法

16231206846830.jpg

主要流程:

1.operator初始化包括状态,输入输出channel以及函数(函数的初始化一般调用initializeState)的初始化等。

2.operator收到某个input收到的marker消息(barrier)
 + input 加入block input集合,然后block 当前input(并不是停止,而是buffer)
 + 如果block_inputs = inputs(说明收到所有输入的marker消息)
   - 向outputs转发该marker消息(也即向所有下游节点发送marker消息)
   - 本地快照
   - 解锁所有inputs(接着处理每个input的buffer数据)

3.operator收到正常数据
  + 数据处理,状态转变,输出转变(数据处理导致状态发生该变,输出数据发生改变)
  + 向下游管道发送当前处理结果

和Candy-lamport 算法主要区别区别

1.状态只有进程本地状态,并没有管道状态(输入管道buffer数据,不作为状态一分部)
2.由同类型进程(source节点)周期出发marker消息。

有环ABS 介绍

更接近Candy-Lamport的实现

16231221431551.jpg

这里Operator的输入分为两种

  • 正常的输入
  • 环路输入(即下游节点输出作为当前节点的输入)

主要流程

+ 集齐所有正常的输入的marker消息,对本地快照进行copy,向下游发送marker消息
+ 缓存或者记录环路输入消息
+ 当收到所有环路输入的marker消息(第一步发送的marker消息),本地快照(本地快照copy + 环路buffer消息)
+ 一次快照组成(正常输入的计算状态 + 环路输入管道的消息)

和无环的主要区别

有环ABS比起无环ABS,更像是Candy-Lamport的最完整的实现。

  • 有环状态组成为进程状态和输入管道消息

Unaligned Checkpointing实现

非对齐checkpoint也是最接近Candy-Lamport的实现,状态是进程状态和管道消息。

16231235382917.jpg

主要流程

1.收到第一个marker消息,然后记录本地进程状态,将maker消息放置在输出对列的最后后面,以最快的速度发送下去
2.算子继续正常处理Channel 的输入,记录属于当前快照的输入消息和输出消息
3.将缓存的输入和输出消息以及快照作为状态,持久化起来。
4.快照组成输入管道消息以及输出管道消息加上收到第一个快照。

总结

flink的快照机制其实是参考Candy-Lamport算法实现的,除了在source周期注入marker消息以外,最大的区别就是状态的组成上。
无法环ABS只有本地快照状态,有环ABS状态是本地快照状态 + 环路输入消息
非对齐checkpoint则是本地快照 + 输入消息 + 输出消息

你可能感兴趣的:(FLink Checkpoint 介绍)