Zookeeper一般会出现以下两种故障:
1. Zookeeper进程挂掉;
2. Zookeeper进程还在,但不提供服务;(提示:This ZooKeeper instance is not currently serving requests)
Zookeeper故障监控:
1. 针对zookeeper进程的监控,直接监控器进程是否存在即可;(zookeeper进程名字:QuorumPeerMain)
2. 针对zookeeper不能提供服务,需要通过linux shell命令监控;
当在linux下输入以下命令并得到下面的结果时,说明zookeeper还活着,但不提供服务了。(这种情况几率大)
[[email protected] bin]# echo stat | nc localhost 2181
This ZooKeeper instance is not currently serving requests
当在linux下输入以下命令并得到下面的结果时,说明zookeeper服务正常。
[[email protected] bin]# echo stat | nc localhost 2181
Zookeeper version: 3.4.6-1569965, built on 02/20/2014 09:09 GMT
Clients:
/192.168.1.12:29432[1](queued=0,recved=13,sent=13)
/127.0.0.1:43448[0](queued=0,recved=1,sent=0)
Latency min/avg/max: 0/1/11
Received: 235
Sent: 17
Connections: 2
Outstanding: 0
Zxid: 0x100000004
Mode: leader
Node count: 4
Zookeeper故障处理:
1. 当zookeeper出现以上两种故障或未知故障时,请先尝试重启zookeeper;
(启动命令:/usr/zookeeper-3.4.6/bin/ 目录下执行 ./zkServer.sh start )
2. 重启之后首先要输入命令jps,看zookeeper进程(QuorumPeerMain)是否起来;
3. 如果zookeeper进程起来,再输入命令echo stat | nc localhost 2181,看服务是否正常(如果数据量大可能需要等几分钟才能显示正确);
4. 如果第2步的进程没有起来,或者第3步的显示不能提供服务,则需要清除以下数据后再试1、2、3步;
需要清除下面两个文件夹下的所有数据(最好将数据备份到别的地方或重命名文件夹名字):
/var/zookeeper/data/version-2
/var/zookeeper/logs/version-2
5. 如果不幸走到了这一步,则意味着第4步重试后第2步进程还是没有起来或第3步不能提供服务,这时需要重新搭建一套zookeeper服务,并修改所有使用zookeeper服务的hosts。
Zookeeper服务搭建:
1. 将附件中的安装包解压到linux机器上的 /usr/ 目录下;如:/usr/zookeeper-3.4.6
2. 修改附件中的zoo.cfg文件,将文件中的的ip修改为新机器的ip;
server.1=192.168.1.1:2888:3888
server.2=192.168.1.2:2888:3888
server.3=192.168.1.3:2888:3888
3. 将修改完的zoo.cfg文件拷贝到解压目录 /usr/zookeeper-3.4.6/conf/ ;
4. 在新机器上创建以下目录和文件:
/var/zookeeper/data/
/var/zookeeper/logs/
/var/zookeeper/data/myid 该文件下要写上第2步中ip对应的server.后面的数字,比如192.168.1.1 ip对应的是server.1,则该机器上的myid中的内容就是1。其他的都类似。
5. 到此为止zookeeper服务就搭建完毕了,下面就需要启动zookeeper了。
(启动命令:/usr/zookeeper-3.4.6/bin/ 目录下执行 ./zkServer.sh start )
附件文件地址:
http://down.51cto.com/data/2114349