Glusterfs主机故障

Glusterfs集群一台主机故障处理

Gluster采用UUID来标识每个gluster实例,这个信息存储在/var/lib/glusterd/glusterd.info中,因此只要恢复之前的UUID,Gluster集群就认为其和原来是同一设备。最好主机名和IP与原来一样,不一样也完全没有关系。

解决方法:

找一台完全一样的机器,至少要保证硬盘数量和大小一致,安装系统,配置和故障机同样的 IP,安装 gluster 软件,保证配置一样,在其他健康节点上执行命令 gluster peer status,查看故障服务器的 uuid

[root@node1 ~]# gluster peer status
Number of Peers: 3

Hostname: node2
Uuid: 481afd04-9feb-4717-aac5-66dd68a2f05c
State: Peer in Cluster (Connected)

Hostname: node3
Uuid: 71856cff-9640-475c-9e32-ac89db043c64
State: Peer in Cluster (Connected)

Hostname: node4
Uuid: 59b99129-a9d7-49f8-bdd5-7b0f812952e8
State: Peer Rejected (Disconnected)

修改新加机器的 /var/lib/glusterd/glusterd.info 和 故障机器一样

[root@node4 ~]# cat /var/lib/glusterd/glusterd.info 
UUID=59b99129-a9d7-49f8-bdd5-7b0f812952e8

重启glusterd进程(确保glusterd进程正常)

[root@node4 ~]# systemctl start glusterd

执行gluster peer probe node1

[root@node4 ~]# gluster peer probe node1
peer probe: success.  

正常情况就能同步到集群的peer信息,通常加入集群后,自动就可以获得卷信息,:

Hostname: node4
Uuid: 59b99129-a9d7-49f8-bdd5-7b0f812952e8
State: Accepted peer request (Connected)

如果没有获取到,可以执行gluster volume sync node1 all来强制获取

但在执行中遇到了无法peer信息,在其他服务器上查看gluster peer status时显示node4状态为: Peer Rejected

Hostname: node4
Uuid: 59b99129-a9d7-49f8-bdd5-7b0f812952e8
State: Peer Rejected (Disconnected)

其解决方法是删除/var/lib/glusterd/目录下除glusterd.info文件的其他文件,然后重启gluster再执行

gluster peer probe node1

就可以解决这个问题了。

你可能感兴趣的:(存储)