《Flink 架构》系列(已完结),共包含以下 6 篇文章:
如果您觉得这篇文章有用 ✔️ 的话,请给博主一个一键三连 吧 (点赞 、关注 、收藏 )!!!您的支持 将激励 博主输出更多优质内容!!!
Flink 是一个分布式的数据处理系统,因此必须能够处理一些故障,例如:进程被强制关闭、机器故障以及网络连接中断。由于每个任务会把状态维护在本地,Flink 要保证发生故障时状态不丢不错。
本篇博客我们将介绍 Flink 的 检查点(checkpoint
)及 故障恢复机制,看一下它们如何提供 精确一次 的状态一致性保障。而在下一篇博客中,我们还会讨论 Flink 所独有的 保存点(savepoint
)机制,它就像一把 “瑞士军刀”,解决了运行流式应用过程中的诸多难题。
Flink 的故障恢复机制需要基于应用状态的 一致性检查点。有状态的流式应用的一致性检查点是在所有任务处理完等量的原始输入后对全部任务状态进行的一个拷贝。我们可以通过一个朴素算法对应用建立一致性检查点的过程进行解释。朴素算法的步骤包括:
注意,Flink 没有实现这种朴素策略,而是使用了一种更加复杂的检查点算法,我们会在稍后介绍该算法。
下图展示了针对一个简单应用的一致性检查点。
该应用有一个数据源任务,负责从一个递增数字(1、2、3、…)流中读取数据。数字流会被分成奇数流和偶数流,求和算子的两个任务会分别对它们求和。数据源算子的任务 会把输入流的当前偏移量存为状态;求和算子的任务 会把当前和值存为状态。在上图中,Flink 会在输入偏移到达 5 的时候生成一个检查点,此时两个和值分别为 6 和 9。
流式应用执行过程中,Flink 会周期性地为应用状态生成检查点。一旦发生障,Flink 会利用最新的检查点将应用状态恢复到某个一致性的点并重启处进程。下图展示了整个恢复过程。
应用恢复要经过 3 个步骤:
如果 所有算子 都将它们全部的状态写入检查点并从中恢复,并且所有输入流的消费位置都能重置到检查点生成那一刻,那么该检查点和恢复机制就能为整个应用的状态提供精确一次的一致性保障。数据源能否重置其输入流取决于它的具体实现以及所消费外部系统是否提供相关接口。例如,类似 Apache Kafka 的事件日志系统就允许从之前的某个偏移读取记录。相反,如果数据流是从套接字(socket
)消费而来则无法重置,因为套接字会在数据被取走后将它们丢弃。因此只有所有输入流都是来自于可重置的数据源,应用才支持精确一次的状态一致性。
应用从检查点恢复以后,它的内部状态会和生成检查点的时候完全一致。随后应用就会重新消费并处理那些从之前检查点完成开始,到发生系统故障之间已经处理过的数据。虽然这意味着 Flink 会重复处理部分消息,但上述机制仍然可以实现精确一次的状态一致性,因为所有算子的状态都会重置到过去还没有处理过那些数据的时间点。
需要强调的是,Flink 的检查点和恢复机制仅能重置 流式应用内部的状态。根据应用所采用的数据汇算子,在恢复期间,某些结果记录可能会向下游系统(如事件日志系统、文件系统或数据库)发送多次。对于某些存储系统,Flink 提供的数据汇函数支持精确一次输出,例如在检查点完成后才会把写出的记录正式提交。另一种适用于很多存储系统的方法是幂等更新。有关端到端精确一次应用所面临的挑战和解决方案会在后续有关应用一致性保障的博客中详细讨论。
Flink 的故障恢复机制需要基于应用的一致性检查点。针对流式应用,生成检查点的朴素方法就是暂停执行,生成检查点,然后恢复应用。但这种 “停止一切” 的行为,即便对于那些具有中等延迟要求的应用也很不切实际。而 Flink 的检查点是基于 Chandy-Lamport
分布式快照算法 来实现的。该算法不会暂停整个应用,而是会把生成检查点的过程和处理过程分离,这样在部分任务持久化状态的过程中,其他任务还可以继续执行。接下来我们解释一下这个算法的工作原理。
Flink 的检查点算法中会用到一类名为 检查点分隔符(checkpoint barrier
)的特殊记录。和水位线类似,这些检查点分隔符会通过数据源算子注入到常规的记录流中。相对其他记录,它们在流中的位置无法提前或延后。为了标识所属的检查点,每个检查点分隔符都会带有一个检查点编号,这样就把一条数据流从逻辑上分成了两个部分。所有先于分隔符的记录所引起的状态更改都会被包含在分隔符所对应的检查点之中;而所有晚于分隔符的记录所引起的状态更改都会被纳入之后的检查点中。
我们通过一个简单流式应用的示例来一步一步解释这个算法。应用包含了两个数据源任务,每个任务都会各自消费一条自增数字流。数据源任务的输出会被分成奇数流和偶数流两个部分,每一部分都会有一个任务负责对收到的全部数字求和,并将结果值更新至下游数据汇。应用细节如下图所示。
上图拥有两个有状态的数据源、两个有状态的任务,以及两个无状态数据汇的流式应用。
如下图所示,JobManager 会向每个数据源任务发送一个新的检查点编号,以此来启动检查点生成流程。
当一个数据源任务收到消息后,会暂停发出记录,利用状态后端触发生成本地状态的检查点,并把该检查点分隔符连同检查点编号广播至所有传出的数据流分区。状态后端会在状态存为检查点完成后通知任务,随后任务会给 JobManager 发送确认消息。在将所有分隔符发出后,数据源将恢复正常工作。通过向输出流中注入分隔符,数据源函数定义了需要在流中哪些位置生成检查点。下图展示了流式应用为数据源任务的本地状态生成检查点并发出检查点分隔符。
数据源任务发出的检查点分隔符会传输到与之相连的任务。和水位线类似,检查点分隔符总是以广播形式发送,从而可以确保每个任务能从它们的每个输入都收到一个分隔符。当任务收到一个新检查点的分隔符时,会继续等待所有其他输入分区也发来这个检查点的分隔符。在等待过程中,它会继续处理那些从还未提供分隔符的分区发来的数据。对于已经提供分隔符的分区,它们新到来的记录会被缓冲起来,不能处理。这个等待所有分隔符到达的过程称为分隔符对齐,我们在下图中对它进行了展示。
上图中,任务等待接收所有输入分区的分隔符,来自已接收分隔符输入分区的记录会被缓存,其他记录则按常规处理。
如下图所示,任务在收齐全部输入分区发送的分隔符后,就会通知状态后端开始生成检查点,同时把检查点分隔符广播到下游相连的任务。
上图中,任务在收到全部分隔符后将状态存入检查点,然后向下游转发检查点分隔符。
任务在发出所有的检查点分隔符后就会开始处理缓冲的记录。待所有缓冲的记录处理完后,任务就会继续处理输入流。下图展示了此时的应用状态。
最终检查点分隔符到达数据汇任务。数据汇任务在收到分隔符后会依次执行分隔符对齐,将自身状态写入检查点,向 JobManager 确认已接收分隔符等一系列动作。JobManager 在接收到 所有应用任务 返回的检查点确认消息后,就会将此次检查点标记为完成。下图展示了检查点算法的最后一步。如前所述,应用在发生故障时就可以利用这个生成好的检查点进行恢复。
数据汇任务向 JobManager 确认收到检查点分隔符,在所有任务成功将自身状态存入检查点后整个应用的检查点才算完成。
虽然 Flink 的检查点算法能够在不停止整个应用的情况下为流式应用生成一致的分布式检查点,但它仍会增加应用处理延迟。Flink 实现了一些调整策略,可以减轻某些条件下对性能的影响。
任务在将其状态存入检查点的过程中,会处于阻塞状态,此时的输入会进入缓冲区。由于状态可能会很大,而且生成检查点需要把这些数据通过网络写入远程存储系统,该过程可能持续数秒,甚至数分钟。这对于一些延迟敏感的应用而言时间过久。按照 Flink 的设计,是由状态后端负责生成检查点,因此任务的状态的具体拷贝过程完全取决于状态后端的实现。举例而言,文件系统状态后端和 RocksDB 状态后端支持 异步 生成检查点。当检查点生成过程触发时,状态后端会为当前状态创建一个本地拷贝。在本地拷贝创建完成后,任务就可以继续它的常规处理。后台进程会异步将本地状态快照拷贝到远程存储,然后在完成检查点后通知任务。异步生成检查点可以有效降低任务恢复数据处理所需等待的时间。除此之外,RocksDB 状态后端还支持 增量 生成检查点,这可以有效降低需要传输的数据量。
我们还可以对分隔符对齐这一步进行调整,以降低检查点算法对处理延迟的影响。对于那些需要极低延迟且能容忍至少一次状态保障的应用,可以通过配置让 Flink 在分隔符对齐的过程中不缓冲那些已收到分隔符所对应分区的记录,而是直接处理它们。待所有的检查点分隔符都到达以后,算子才将状态存入检查点,这时候状态可能会包含一些由本应出现在下一次检查点的记录所引起的改动。一旦出现故障,这些记录会被重复处理,而这意味着检查点只能提供至少一次而非精确一次的一致性保障。