Flink CheckPoint : Exceeded checkpoint tolerable failure threshold

文章目录

  • 一、问题描述
  • 二、解决步骤
    • 1、检查checkpoint的设置
    • 2、检查处理逻辑
    • 3、问题复盘
  • 三、解决方案

一、问题描述

超过了检查点可容忍的故障阈值
Flink CheckPoint : Exceeded checkpoint tolerable failure threshold_第1张图片

在这里插入图片描述

二、解决步骤

1、检查checkpoint的设置

明显,checkpoint超时了,于是,我下意识地去,检查checkpoint的设置
代码中的设置如下:

		// 每 ** ms 开始一次 checkpoint
        env.enableCheckpointing(10*1000);
        // 设置模式为精确一次 (这是默认值)
        env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.AT_LEAST_ONCE);
        // 确认 checkpoints 之间的时间会进行 ** ms
        env.getCheckpointConfig().setMinPauseBetweenCheckpoints(500);
        // Checkpoint 必须在一分钟内完成,否则就会被抛弃
        env.getCheckpointConfig().setCheckpointTimeout(60000);
        // 同一时间只允许一个 checkpoint 进行
        env.getCheckpointConfig().setMaxConcurrentCheckpoints(1);
        // 开启在 job 中止后仍然保留的 externalized checkpoints
        env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);
        // 允许在有更近 savepoint 时回退到 checkpoint
        env.getCheckpointConfig().setPreferCheckpointForRecovery(true);

尝试更改一下timeout时间,从1分钟改为10分钟,重新打包上线。
然后查看UI界面,发现checkpoint仍然无法正常进行,状态一直是IN_PROGRESS,没有进展,只不过从等待1分钟变成了10分钟,程序最后还是挂掉
在这里插入图片描述
这个时候,考虑不是checkpoint设置问题,而是程序有bug,资源没有释放或者其他问题,导致程序卡住了,以至于checkpoint超时。

2、检查处理逻辑

Flink CheckPoint : Exceeded checkpoint tolerable failure threshold_第2张图片
发现数据通道阻塞,经过打印数据发现,任务中异步IO从HBase中查询数据,有key不存在,关联任务超时,导致checkpoint失败
Flink CheckPoint : Exceeded checkpoint tolerable failure threshold_第3张图片
打印维度关联超时的数据:
在这里插入图片描述

3、问题复盘

问题产生原因:hbase scan性能低下,导致查询维度数据超时,创建检查点失败
正常来说,维度查询没有对应数据也不会超时的,只是返回空值,但是scan全盘扫描查询时间较长,所以使用get方式精准查询。

三、解决方案

hbase的查询实现只提供两种方式:
按指定rowkey获取唯一一条记录:get方法。
按指定条件获取一批记录:scan方法。
Flink CheckPoint : Exceeded checkpoint tolerable failure threshold_第4张图片

你可能感兴趣的:(Flink,flink,hbase)