CDH报错解决:该主机与 Cloudera Manager Server 失去联系的时间过长。该主机未与 Host Monitor 建立联系。

文章目录

  • 概述
  • 问题描述
  • 解决方法

概述


说明下,qichu这里是由于集群资源有限,在最初配置如下:

Master	172.20.10.100
Slave1	172.20.10.10
Slave2	172.20.10.20


问题描述


如下图所示,该主机与 Cloudera Manager Server 失去联系的时间过长。 该主机未与 Host Monitor 建立联系。
CDH报错解决:该主机与 Cloudera Manager Server 失去联系的时间过长。该主机未与 Host Monitor 建立联系。_第1张图片

解决方法


要解决此问题,请确保以下的配置或设置正确

  1. 问题节点所在的机器已经启动

  2. 问题节点上的代理Agent已经启动,即service cloudera-scm-agent status显示active(running)
    CDH报错解决:该主机与 Cloudera Manager Server 失去联系的时间过长。该主机未与 Host Monitor 建立联系。_第2张图片

  3. 问题节点与主机节点上的/etc/hosts配置文件中,iphostname是正确对应的。

  4. 如果使用的是mysql保存源数据,那么确保当前数据库端口启动(日志中有提到过9000端口无法访问),使用netstat -an | grep 9000查看是否启动
    在这里插入图片描述

  5. cm_uuid不匹配问题,查看日志如下图:
    CDH报错解决:该主机与 Cloudera Manager Server 失去联系的时间过长。该主机未与 Host Monitor 建立联系。_第3张图片在每个节点上,/var/lib/cloudera-scm-agent 这个目录是自动生成的,里面的cm_guid是ClouderaManager的guid:
    在这里插入图片描述
    所以如果重复添加主机,那就需要
    5.1 先删除此节点上的cm_guid:即在问题节点上执行sudo rm /var/lib/cloudera-scm-agent/cm_guid
    5.2 将此问题主机先从Clouera Manager中移除
    CDH报错解决:该主机与 Cloudera Manager Server 失去联系的时间过长。该主机未与 Host Monitor 建立联系。_第4张图片
    5.3 然后再在集群中添加此问题主机:
    CDH报错解决:该主机与 Cloudera Manager Server 失去联系的时间过长。该主机未与 Host Monitor 建立联系。_第5张图片
    可以发现不再出现报错:
    CDH报错解决:该主机与 Cloudera Manager Server 失去联系的时间过长。该主机未与 Host Monitor 建立联系。_第6张图片

你可能感兴趣的:(CDH)