cloudera-scm-server单点故障处理及恢复

实际生产中,CDH的重要服务都可以做HA,但是cloudera-scm-server却只能单点,若cloudera-scm-server主机损坏或者服务损坏,不可能重新启动再接管集群,需要我们自己手动去恢复。这里教大家解决cloudera-scm-server单点故障的处理方法和恢复。

这里做测试:在cloudera-scm-server主机上直接kill掉scm的服务,并卸载。

卸载的时候要注意,不要delete数据库,因为在实际生产中,服务损坏是不会删除数据库的,数据库在其他服务器上。

1、将scm数据库导出,并删除scm数据库:

mysqldump -h192.128.1.1 -u root --password='password' --databases scm>scm20180307.sql

drop database scm;

2、重新安装cloudera-scm-server

安装步骤请参考:http://blog.csdn.net/weixin_40817778/article/details/79414166


3、安装成功后,关闭cloudera-scm-server和cloudera-scm-server-db服务:

/etc/init.d/cloudera-scm-server stop

/etc/init.d/cloudera-scm-server-db stop

4、将cloudera-scm-server服务依赖的数据库换成mysql数据库:

/usr/share/cmf/schema/scm_prepare_database.sh mysql(数据库类型) scm(数据库名称) -h192.168.1.1(mysql服务器的地址) -uroot -pabc123 --scm-host192.168.1.1(server安装地址) scm scm scm

5、将备份的数据导入到scm数据库:

mysql:source scm20180307.sql

6、启动cloudera-scm-server和每台服务器上的agent服务:

/etc/init.d/cloudera-scm-server start

/etc/init.d/cloudera-scm-agent restart(不重启,web会不识别agent)

7、点击升级agent,因为在卸载cloudera-scm-server的时候,这台服务器的agent也会受影响(以前5.4的时候没有出现这种情况,请按照实际情况按需执行。)


至此,已经解决单点故障:

cloudera-scm-server单点故障处理及恢复_第1张图片





你可能感兴趣的:(安装维护,cloudera)