flink sql作业报错Timeout of 60000ms expired before the position for partition xxx could be determined

问题:
  新增流作业,将kafka集群的数据通过flink sql写入hdfs,所有的flink作业均出现订阅的topic某个分区超时; 且topic的partition数量等于flink 可用的slot数

原因:
  消费不到kakfa的topic数据,首先看网络问题
(1)通过kafka-topics.sh命令找到topic分区所对应的leader和Isr在这里插入图片描述

(2)连接kafka对应的zookeeper客户端,找到kafka连接超时分区的leader对应的服务器ip
在这里插入图片描述
(3)查看页面,找到出现异常的taskmanager所对应的域名,通过ping和telnet命令测试是否网络正常,发现不通,生产环境存在2套网络,(一套管理ip、一套服务ip),域名映射出错

解决:
  打通此节点和cdh集群之间的网络,配置正确的域名映射

你可能感兴趣的:(异常处理,flink,kafka)