ZooKeeper故障处理

Zookeeper一般会出现以下两种故障:

1. Zookeeper进程挂掉;

2. Zookeeper进程还在,但不提供服务;(提示:This ZooKeeper instance is not currently serving requests

Zookeeper故障监控:

1. 针对zookeeper进程的监控,直接监控器进程是否存在即可;(zookeeper进程名字:QuorumPeerMain

2. 针对zookeeper不能提供服务,需要通过linux shell命令监控;

当在linux下输入以下命令并得到下面的结果时,说明zookeeper还活着,但不提供服务了。(这种情况几率大)

   [[email protected] bin]# echo stat | nc localhost 2181

   This ZooKeeper instance is not currently serving requests

当在linux下输入以下命令并得到下面的结果时,说明zookeeper服务正常。

[[email protected] bin]# echo stat | nc localhost 2181

Zookeeper version: 3.4.6-1569965, built on 02/20/2014 09:09 GMT

Clients:

 /192.168.1.12:29432[1](queued=0,recved=13,sent=13)

 /127.0.0.1:43448[0](queued=0,recved=1,sent=0)

 

Latency min/avg/max: 0/1/11

Received: 235

Sent: 17

Connections: 2

Outstanding: 0

Zxid: 0x100000004

Mode: leader

Node count: 4

Zookeeper故障处理:

1. zookeeper出现以上两种故障或未知故障时,请先尝试重启zookeeper

(启动命令:/usr/zookeeper-3.4.6/bin/ 目录下执行 ./zkServer.sh start 

2. 重启之后首先要输入命令jps,看zookeeper进程(QuorumPeerMain)是否起来;

3. 如果zookeeper进程起来,再输入命令echo stat | nc localhost 2181,看服务是否正常(如果数据量大可能需要等几分钟才能显示正确);

4. 如果第2步的进程没有起来,或者第3步的显示不能提供服务,则需要清除以下数据后再试123步;

需要清除下面两个文件夹下的所有数据(最好将数据备份到别的地方或重命名文件夹名字):

/var/zookeeper/data/version-2

/var/zookeeper/logs/version-2

5. 如果不幸走到了这一步,则意味着第4步重试后第2步进程还是没有起来或第3步不能提供服务,这时需要重新搭建一套zookeeper服务,并修改所有使用zookeeper服务的hosts

Zookeeper服务搭建:

1. 将附件中的安装包解压到linux机器上的 /usr/ 目录下;如:/usr/zookeeper-3.4.6

2. 修改附件中的zoo.cfg文件,将文件中的的ip修改为新机器的ip

server.1=192.168.1.1:2888:3888

server.2=192.168.1.2:2888:3888

server.3=192.168.1.3:2888:3888

3. 将修改完的zoo.cfg文件拷贝到解压目录 /usr/zookeeper-3.4.6/conf/ 

4. 在新机器上创建以下目录和文件:

/var/zookeeper/data/

/var/zookeeper/logs/

/var/zookeeper/data/myid 该文件下要写上第2步中ip对应的server.后面的数字,比如192.168.1.1 ip对应的是server.1,则该机器上的myid中的内容就是1。其他的都类似。

5. 到此为止zookeeper服务就搭建完毕了,下面就需要启动zookeeper了。

 (启动命令:/usr/zookeeper-3.4.6/bin/ 目录下执行 ./zkServer.sh start 


附件文件地址:

http://down.51cto.com/data/2114349


你可能感兴趣的:(zookeeper,zookeeper故障处理)