Flink指标含义

监控 State 和 Checkpoint

监控 Checkpoint 行为的最简单方法是通过 WebUI 界面,最值得关注的是:

  • 当触发 checkpoint 的时间一直很高时,Operator 收到第一个 checkpoint barrier 的时间一直很高,这意味着 checkpoint barriers 需要很长时间才能从 Source 到 Operator。这通常表明系统在恒定背压(backpressure)下工作。

  • 对齐持续时间。在 Exactly-once 语义下,有多个输入的 Operator,已经接收到 barrier 的通道将被阻止接收进一步的数据,直到所有剩余的通道赶上并接收到它们的 barrier 的持续时间。

理想情况下,这两个值都应该是低值,持续出现较高的值意味着 checkpoint barrier 在 job graph 中缓慢移动,通常是由于 backpressure 存在(没有足够的资源来处理记录)。也可以通过增加处理记录的端到端延迟来观察

你可能感兴趣的:(Flink指标含义)