Heartbeat
双机热备实验
一、实验图示
二、实验环境:
Vmware 双机,分别为server1和server2,虚拟IP为:128.1.37.85
Server1 IP:
eth0: 128.1.37.86 eth1: 10.10.10.131
Server2 IP:
eth0: 128.1.37.87 eth1: 10.10.10.1132
三、安装软件:
1)本次测试使用rpm包安装,需要安装如下三个文件:
2)如果源码安装,只需要编译安装源文件即可,但是需要先建立用户,如下:
groupadd haclient
useradd hacluster -g haclient
安装
heartbeat前,需要先安装libnet包。
tar zxvf heartbeat-2.1.3.tar.gz
rpm -ivh libnet-1.1.2.1-2.2.el4.rf.x86_64.rpm
cd heartbeat-2.1.3
./configure
make
make install
同样地,在另一个主机上也是这么安装。
四、配置主服务器
heartbeat有三个配置文件:
ha.cf,authkyes,haresources
这些文件本身并不存在,需要先建立,可以从示范文档中拷贝过来,进行修改
主备服务器的ha.cf, authkyes, haresources完全一样即可
1)ha.cf配置内容:
------------------------------------------------------------------------------------------------------------
logfile /var/log/ha-log
#指定日志文件位置
keepalive 2
#指定心跳时间间隔,此次为2秒
deadtime 30
#如果30秒没有收到对方心跳就认为对方已经DOWN机
warntime 10
#10秒没有收到心跳,便发出警报。
initdead 120
#对方DOWN后120秒重新检测一次。
udpport 694
#指定监听端口
bcast
eth1 #指定eth1为心跳监听网卡
ucast
eth1 10.10.10.132 #使用eth1来ping备用节点ip10.10.10.132,检测是否存活。
auto_failback on
#主节点在恢复后抢夺回主服务器资源。
node
server1 #指定主服务器的节点名,需与host文件中一致
node
server2 #指定备用服务器的节点名,需与host文件中一致
ping_group group1 128.1.37.1 128.1.37.246
#当128.1.37.1 128.1.37.246这两个IP都不能ping通时对方即开始接管资源。选择ping的节点,ping节点选择的越好,HA集群就越强壮,可以选择固定的路由器作为ping节点,但是最好不要选择集群中的成员作为ping节点,ping节点仅仅用来测试网络连接。
respawn hacluster /usr/lib/heartbeat/ipfail
#启用ipfail脚本
apiauth ipfail gid=haclient uid=hacluster
#指定运行ipfail的用户。
注释: ipfail是和heartbeat集成的插件,此进程用于检测和处理网络故障,
需要配合ping语句指定的ping node来检测网络的连通性。其中root表示启动ipfail进程
2)haresources文件配置:
--------------------------------------------------------------------------------------------------
例:server1
128.1.37.85 httpd smb
注释:
server1为主服务器名(与uname -n输出应一致),128.1.37.85为虚拟IP,smb和httpd为要控制的资源脚本(已经存放在/etc/init.d/),该行指定在启动时,节点server1得到IP地址128.1.37.85,并启动Apache和Samba。在停止时,Heartbeat将首先停止smb,然后停止Apache,最后释放IP地址128.1.37.85。
注意:此处的服务资源(如httpd,smb等都是预先定义在/etc/rc.d/init.d/中的,如果是源码编译的程序,需要注意此处。)
crc: 两台机器直接用交叉线连接时用,CPU开销最小,最不安全
md5: 相对不安全,但是cpu开销较小
sha1: 最安全,但是CPU 开销也最大,
文件格式如下:
auth
不论您在关键字auth后面指定的是什么索引值,在后面必须要作为键值再次出现。如果您指定“auth 4”,则在后面一定要有一行的内容为“4 ”。
确保该文件的访问权限是安全的,如600。
五、配置副服务器
在主服务器上拷贝配置文件到副服务器上
scp /etc/ha.d/ha.cf root@server2:/etc/ha.d/ha.cf
scp /etc/ha.d/haresources root@server2:/etc/ha.d/haresources
scp /etc/ha.d/ authkeys root@server2:/etc/ha.d/authkeys
===============================================================
只需要修改ha.cf文件中的ucast为如下:
ucast eth1 10.10.10.131
六、启动服务
Service heartbeat start
附加信息:
A、虽然Heartbeat不要求在两个服务器上使系统钟同步主要和备份服务器,但是系统时钟应该在的几十秒之内,否则在高可用性服务的环境下会产生故障。
B、 如果修改了配置文件etc/ha.d/ authkeys或者 /etc/ha.d/ha.cf后要使用下面的命令重新加载服务。
#/etc/init.d/heartbeat reload
或者
#service heartbeat reload
C、可以使用命令查看日志文件:
#tail -f /var/log/messages
D、什么是ipfail
ipfail插件的用途是检测网络故障,并作出合理的反应,如果需要的话使集群资源failover。为了实现这样的功能ipfail使用ping节点或者ping节点组,这些节点在集群中作为“哑”节点出现。如果HA节点间可以相互通信ipfail便可以可靠地检测到其中一个网络连接失效的情况,并作出补救。
配置ipfail的步骤如下:
a.选择好的候选ping节点
这步很重要。你的选择越好,则得到的HA集群便越强壮。选择固定的交换机路由器等是一个好主意。不要选择HA集群中的任一个成员,也不要选择其他人的工作站。选择能反映您HA节点的连接状况的ping节点也很重要。如果您要监视两个接口的连接情况,明智的做法是为每个接口选择一个只对该接口可用的ping节点。
b.设置auto_failback为on或者off
只有当Heartbeat被配置为非legacy时ipfail才会起作用。在ha.cf文件中,如下将auto_failback设置为on或者off:
auto_failback on
或者
auto_failback off
c.配置ha.cf使之启动ipfail。
向ha.cf中增加如下一行(假设您在编译时的PREFIX为/usr):
respawn hacluster /usr/lib/heartbeat/ipfail
d.向ha.cf中加入ping节点:
ping pnode1 pnode2 pnodeN
将pnode1,pnode2,…pnodeN等替换为您ping节点的IP地址。
确保向集群中各个成员的ha.cf中加入以上相同的配置指令。
e. 修改Heartbeat配置文件
如果修改了配置文件etc/ha.d/ authkeys或者 /etc/ha.d/ha.cf后要使用下面的命令重新加载服务。
#/etc/init.d/heartbeat reload
或者
#service heartbeat reload
E、什么是stonith
stonith是“shoot the other node in the head”[1]的首字母简写,它是Heartbeat软件包的一个组件,它允许使用一个远程或“智能的”连接到健康服务器的电源设备自动重启失效服务器的电源,stonith设备可以关闭电源并响应软件命令,运行Heartbeat的服务器可以通过串口线或网线向stonith设备发送命令,它控制高可用服务器对中其他服务器的电力供应,换句话说,主服务器可以复位备用服务器的电源,备用服务器也可以复位主服务器的电源。尽管理论上连接到远程或“智能的”循环电源系统的电力设备的数量是没有限制的,但大多数stonith实现只使用两台服务器
查看当前支持Stonith设备清单的命令:
#/usr/sbin/stonith -L
查看当前支持Stonith设备其他情况的命令
例如查看rps10的设备配置的命令:
# /usr/sbin/stonith -l -t rps10 test
命令输出:
STONITH: Cannot open /etc/ha.d/rpc.cfg
STONITH: Invalid config file for rps10 device.
STONITH: Config file syntax: [
All tokens are white-space delimited.
Blank lines and lines beginning with # are ignored
所以在rps10设备在/etc/ha.d/ha.cf 配置文件中的格式如下:
STONITH_host backupserver rps10 /dev/ttyS0 primaryserver.mydomain.com 0