CDH集群问题处理 -- NTP服务不同步,系统盘占用多的迁移

时间不同步

如果集群规模比较小,可以让几台机器的时间往一台上同步

处理方式:

1. 主机服务上 vim /etc/ntp.conf

#注释掉:集群在局域网中,不使用其他的网络时间
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst

#新增:当外部时间不可用时,使用本地时间
server 127.127.1.0
fudge 127.127.1.0 stratum 10

#broadcast 192.168.1.255 autokey        # broadcast server
#broadcastclient                        # broadcast client
#broadcast 224.0.1.1 autokey            # multicast server
#multicastclient 224.0.1.1              # multicast client
#manycastserver 239.255.254.254         # manycast server
#manycastclient 239.255.254.254 autokey # manycast client

2. 其它服务器同步主机服务器时间 vim /etc/ntp.conf

#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst
server 10.16.5.60 iburst
restrict 10.16.5.60 nomodify notrap noquery

#broadcast 192.168.1.255 autokey	# broadcast server
#broadcastclient			# broadcast client
#broadcast 224.0.1.1 autokey		# multicast server
#multicastclient 224.0.1.1		# multicast client
#manycastserver 239.255.254.254		# manycast server
#manycastclient 239.255.254.254 autokey # manycast client

3. 重启ntpd服务,并查看状态

systemctl restart ntpd
ntpq -p
ntpstat

4. 在每台机器上重启 scm-agent

systemctl restart cloudera-scm-agent

处理参考1
处理参考2

清理日志

如果是默认安装,系统分配的系统盘可能会很小
这次生产上系统盘为50G,
没过多久就被日志和监控元数据打满了
以下为日志迁移处理步骤

处理方式

1. 在CDH管理界面关掉 Cloudera Management Service
2. 修改配置,点击配置 本地目录和文件
3. 修改 Event Server 索引目录、Host Monitor 存储目录、Service Monitor 存储目录
4. 到安装 cloudera management service 的服务器上将修改的目录移动到配置新指定的目录下
5. 重启 Cloudera Management Service

组件不生效需要完全重启的处理方式

1. 登录CDH管理界面,关闭所有组件
2. 关闭 Cloudera Management Service
3. 将需要修改的配置全部修改到位
4. 到服务器上将原来的目录移动到修改的目录下
5. 关闭每个节点的 cloudera-scm-agent
    service cloudera-scm-agent stop
    service cloudera-scm-agent status
6. 关闭主节点的 cloudera-scm-server
    service cloudera-scm-server stop
    service cloudera-scm-server status
7. 查看日志
    /var/log/cloudera-scm-xxx
8. 重启各个节点
    reboot
9. 重启后检查主节点的 cloudera-scm-server是否启动
    没有启动检查是否系统未执行启动还是启动报错
    系统未执行的手动执行
    报错的根据报错具体处理
10. 重启后检查各个节点的 cloudera-scm-agent 是否随系统启动
    没有启动的查看是系统未执行启动还是启动报错
    系统未执行的手动执行
    报错的根据报错处理问题
11. 在 CDH 管理界面启动 Cloudera Management Service
    注意点重启启动
    启动有报错的根据具体报错处理
12. 启动各个组件
    有报错的根据报错处理问题

参考

你可能感兴趣的:(运维,服务器,运维,linux,cloudera)