CDH集群NN频繁宕机,启动后master102重复进入安全模式

最近集群一直在报块太多的警告,NN一直宕机.宕机的原因是full gc的时间太久,跟journal node的通信断开了.

首先尝试增加journal node和name node的time out时间,默认为20s,增加到10分钟之后问题没有改善.

time out报错如下:

FATAL org.apache.hadoop.hdfs.server.namenode.FSEditLog: Error: flush failed for required journal (JournalAndStream(mgr=QJM to [IP:8486, IP:8486, IP:8486], stream=QuorumOutputStream starting at txid 2947))
java.io.IOException: Timed out waiting 20000ms for a quorum of nodes to respond.

修改hadoop/etc/hadoop下的hdfs-site.xml参数如下:


        dfs.qjournal.write-txns.timeout.ms
        60000

 

后来考虑到主要原因是namenode的full gc问题.所以优化一下NN的参数.

1-增加NN内存(10G)

HADOOP_NAMENODE_OPTS=-Xms10737418240 -Xmx10737418240

2-关闭NN所在机器上的SWAP交换空间.

交换空间关闭的办法网上有很多.不再赘述.

 

增加内存和关闭swap之后,集群未再出现上述问题.

你可能感兴趣的:(日常工作问题记录)