Flink on yarn 无法启动

1.flink on yarn命令

yarn-session.sh -n 4 -jm 1024 -tm 4096 -s 4

2.出错现象

(1)客户端一直刷新这个,过一段时间显示连接失败与rs

(2)yarn页面一直是ACCEPTED,点击进去主机查看日志如下:

Flink on yarn 无法启动_第1张图片

3.找问题,以为是yarn出问题,后来用spark测试后发现yarn正常,一天没发现啥原因,后来找了以前的hadoop客户端连接这个集群提交flink,发现竟然可以,然后对比发现很多配置不一样,就这样把hdfs-site.xml,core-site,yarn-site,mapred-site,都拷贝到新的客户端发现可以提交flink了,最后尝试不替换yarn-site,直接重复之前的错误,然后多次对比实验新老客户端yarn-site配置,发现:

老客户端没有配置如下,但是新客户端配置了:Flink on yarn 无法启动_第2张图片

 该配置以前是在mapred-site中配置的,配置如下:

对比发现新客户端的yarn-site这块配置错了,整个集群也是错误的,唉,也不知道spark是怎么跑出来的,hadoop yarn是怎么启动的,修改为 mapred-site中的值后,新客户端再次提交flink成功,如下:

Flink on yarn 无法启动_第3张图片

yarn页面job运行状态也是为RUNNING,点击ApplicationMaster也能进去Flink web 页面。

总结:这hadoop配置不是我的配置,是同事的配置,真坑!

你可能感兴趣的:(大数据运维之flink日常)