Futures timed out after [10000 milliseconds] 问题定位

Exception in thread “main” java.util.concurrent.TimeoutException: Futures timed out after [10000 milliseconds] 问题定位

1 背景

    最近搭建spark集群环境,按照教程将spark从1.3升级到spark1.5。当配置好所有的环境变量和spark-env.sh后,在sbin下执行./start-all时,发现不能启动。
该问题困扰了几天,记录下定位的过程和原因。也许最后得出的结论不是根本原因,但的的确确解决了问题,但愿对以后遇到该问题的朋友有帮助。

2 定位过程

2.1. 检查环境变量

   反复检查文档教程,对比~/bashrc和spark-env.sh的环境变量的设置。结果发现按照网上教程似乎配置的变量没有问题。

2.2 查看日志

   在对比环境变量后,分别进入master和slave节点的logs目录,在查看slave节点的日志中有以下错误。
   主节点的打印是:
Futures timed out after [10000 milliseconds]
   slave节点日志打印是:
Caused by: java.io.IOException: Failed to connect to /192.168.2.5:7077
   从日志上看,似乎是不能链接到master节点的7077端口,所以怀疑是不是主节点的7077没起来。之后搜到一篇博客的分析步骤很全面,特别是通过命令nmap、telnet 来确保端口是否启动成功。
   可以参考以下的链接来定位端口是否启动。
    https://blog.csdn.net/ybdesire/article/details/70666544
   在当前这个问题,在两个子节点通过tenet来链接7077端口是可以链接上的(似乎原因不是这个)

2.3 时间同步

   在问题定位过程中,得到一个spark好友帮助,他发现我的集群中时间不同步,其中竟然master和一台slave的时间相差了足足两天。
由于集群之间涉及通讯问题,所以我们猜测可能是时间不一致导致,或者至少要保证时间一致。所以采用ntp和cron保证集群之间的时间一致。
以下是ntp时间同步的博客,亲测可用。

https://www.cnblogs.com/zjp719325616/p/6530705.html

   在将时间弄成同步一致之后,再次启动start-all.sh。卧槽,还是没起来,TM还是报一样的错,最终那个网友也放弃了(还是很感谢)。

2.4 更改8080端口

   在确定7077端口起来和保证集群时间同步之后,由于没找到原因但还是无法起来。所以采纳了另外一个网友的意见,更改web的8080端口试试。按照下面这个教程去更改了端口到8099(虽然隐约觉得不是这原因造成的,因为日志没有打印8080端口冲突)
https://blog.csdn.net/xiaoshunzi111/article/details/53173556
   按照这个教程进行修改conf下的spark-env.sh后,特么发现问题依然存在。通过日志分析,虽然日志呈现出来的问题依然一样,不过仔细分析打印的问题日志,发现一个奇怪的打印:
Spark Command: /home/hadoop/software/jdk1.7.0_67/bin/java -cp ::/home/hadoop/software/spark-1.2.1-bin-hadoop2.4/sbin/../conf:/home/hadoop/software/spark-1.2.1-bin-hadoop2.4/lib/spark-assembly-1.2.1-hadoop2.4.0.jar:/home/hadoop/software/spark-1.2.1-bin-hadoop2.4/lib/datanucleus-core-3.2.10.jar:/home/hadoop/software/spark-1.2.1-bin-hadoop2.4/lib/datanucleus-rdbms-3.2.9.jar:/home/hadoop/software/spark-1.2.1-bin-hadoop2.4/lib/datanucleus-api-jdo-3.2.6.jar:/home/hadoop/software/hadoop-2.5.2/etc/hadoop:/home/hadoop/software/hadoop-2.5.2/etc/hadoop -XX:MaxPermSize=128m -Dspark.akka.logLifecycleEvents=true -Xms512m -Xmx512m org.apache.spark.deploy.master.Master --ip 192.168.26.131 --port 7077 --webui-port 8080
   这个master节点的日志显示,webui-port端口还是8080,似乎之前修改spark-env.sh的端口好8099没有生效,所以怀疑8080端口是不是在哪儿还配置了一份。
   通过和其它网友的环境变量的仔细比对,TM发现在bashrc中配置了多余的一份8080和7077端口,
即配置了多余的SPARK_MASTER_PORT和SPARK_MASTER_WEBUI_PORT。晕死!!!原来网上教程有误!!!

3.4 新问题现象

   在将~/bashrc的多余的环境变量删除之后(各个节点都删除),并且将web端口改回8080,重新启动star-all.sh,结果报了线程池无法链接。但是通过日志发现主节点和一个子节点已经成功起来,并且可以通过8080端口进行网页访问,且成功的节点已经注册进来。
通过jps也发现master和一个worker起来。
   反复重启几次,发现上一次不能注册的能注册了,反而是上次成功的失败了,感觉是随机出现。

3.5 释放内存

   由于之前看了几篇对应的博客,其中隐约记得是不是内存不足导致。因此通过命令清除缓存,然后再启动,发现成功。后通过该方法尝试都能成功启动。
以下链接是如何释放内存。
https://www.cnblogs.com/freeweb/p/5713513.html

4 原因

   在定位该问题的过程中,实际引起的该问题的原因还有很多,将搜出的某些可能的原因罗列以下(当前环境没问题)
   (1)hadoop、scala、spark的版本匹配
   (2)java的版本不能过低(当时环境竟然用的是1.5)
   (3)三个节点之间的时间戳是否一致
   (4)防火墙

5 总结

   由于是利用工作之余学习spark,所以这次定位花费相当长的时间。但通过这次定位也学到了遇到问题不能病急乱投医,到处搜博客到处乱试,而是应该根据日志一步一步分析,甚至需要分析脚本执行的过程。
最后感谢那两个网友!!!

你可能感兴趣的:(Spark)