flink系统学习

flink自身提供的2中metric指标监控的方式

  • 图形界面,通过flink自带的webui来查看
  • restful api 通过flink暴露的接口来采集
  • 可以试着打日志
  • 可以采集jobmanager日志与taskmanager的日志信息,分析常见的failover的原因

flink任务监控系统

  • 依赖于外部的系统grafana or JMX 来采集指标项

基于metric运维的优点

  • 整合数据

监控指标项的定义

  • 延迟 : 最近一个成功处理的数据offset 与最新生成的一条数据的offset的差值
    有的系统可以直接返回值,有的需要通过metric来做
  • 反压 : 直接判断问题算子

指标的设定

  • JVM metrics
    可以设置一些阈值 类似于cpu不得超过50%, 内存占用不超50%,GC比例不超15%,fullGC恒定
  • 流数据 metrics
    
  • state metrics
    当前checkpoint的进度,时长,文件大小,频率,checkpoint的失败恢复比例
    DFS的设置,冗余,分片,DFS的管理,碎片文件管理,回收机制
    

metrics的局限性

  • 难以保证准确性     -----需要做去噪处理
    
  • 难以回答统计型分析
    
  • 难以融合其他的metrics
    

自己遇到的线上问题

  1. 集群周期性的相应慢
  •    有跑批量统计的定时任务
    

你可能感兴趣的:(flink系统学习)