Flink如何实现容错

       Flink作业在生产情况下无法正常运行的情况非常多,很多问题都是无法避免的。对于Flink集群来讲,能够快速从异常状态中恢复,同时保证处理数据的正确性和一致性非常重要。Flink主要借助Checkpoint的方式保障整个系统状态数据的一致性,也就是基于ABS算法。

          ABS全称异步屏障快照(Asynchronous Barrier Snapshotting),是对Chandy-Lamport算法(分布式快照算法)在工业项目中落地实现的补充和优化。

Checkpoint的执行过程分为三个阶段:启动、执行以及确认完成

1、启动

       Checkpoint的启动过程由JobManager管理节点中的CheckpointCoordinator组件控制,该组件会周期性地向数据源节点发送执行Checkpoint的请求,执行频率取决于用户配置的CheckpointInterval参数。具体在代码中配置

final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.enableCheckpointing(1000L);

      数据源节点中的算子会将消费数据对应的Position发送到JobManager管理节点中。然后JobManager节点会存储Checkpoint元数据,如果数据源是kafka,那最后存储的就是消费Kafka主题的偏移量,数据源执行完Checkpoint操作后,继续向下游节点发送CheckpointBarrier事件。

你可能感兴趣的:(Flink实战,flink,p2p,大数据)