Steeleye LifeKeeper
技术
(一)
Steeleye LifeKeeper
原理
Steeleye LifeKeeper
定义、特性、资源保护
LifeKeeper For Windows 2000
提供了一个完全容错的软件解决方案,并提供数据、应用程
序和通信资源的高度可用性。
LifeKeeper
不需要任何特别的容错硬件。你可以集合使用二到三十二个
W2K
结点。并访问特定地点的配置数据。然后,
LifeKeeper
会自动地提供错误检测和多层现场恢复。
在出现故障的情况下,
LifeKeeper
会将保护资源自动转换到一个根据优先权而设定的系统。在实际进行切换用户时,
会经历一个十分短暂的休眠,但是,当系统完成了切换操作后,
LifeKeeper
会在所选择的系统上自动地恢复操作。
可以被
LifeKeeper
保护起来的资源是:
卷(
Volume
)
IP
地址
共享文件
LAN
(局域网)管理器服务器名称
应用程序
定义的用户
MSCS
应用程序
。
2
、心跳故障检测
Heartbeat LifeKeeper
在集群节点间保持着间歇的通信信号,也叫做心跳信号,是错误检测的一个机制。即通过每一个通信路径,在两个对等系统之间进行周期性的握手
,
如果连续没有收到的心跳信号到了一定的数目,
LifeKeeper
就把这条路径标示为失效(红色)。
如果你只定义了一条通信路径,当
LifeKeeper
把这唯一的一条通信路径标为失效时,
LifeKeeper
便立即开始恢复过程。然而,如果你有冗余路径,
LifeKeeper
能够通过第二条路径确定是系统故障还是只是通信路径有问题。
如果
LifeKeeper
开启优先级第二的通信路径并收到了心跳信号,它就不开始
failover
恢复,只需要把第一条通信路径标成红色(失效),作为信号告诉你需要修理一下有故障的路径。
一般情况下
LifeKeeper
只在下列事件发生时,启动系统恢复功能:
所有的通信路径故障。如果所有节点都没能收到心跳信号,
把所有通信路径都标为失效,
Lifekeeper
开始安全检查,当所有通信路径故障时,
LifeKeeper
向整个网络发出安全检查信号。如果信号指出配对系统还
"
活
"
着的时候,
LifeKeeper
不启动
Failover
。如果安全检查没从配对节点返回信号,
LifeKeeper
就开始
Failover
。
因而,为了减少由于潜在的通讯错误所引起的不必要的系统切换,建议您使用不同介质的多条通信路径。
3
、
通信路径
LifeKeeper
支持在节点之间和心跳通讯中,使用如下通讯路径:
(1) socket
,即套接字。你使用任何的网络硬件接口,只要它能够支持
TCP/IP
的通讯协议。这样的硬件包括:以太网、快速以网、令牌环网以及
FDDI
或
CDDI
。
(2)
串行口
在
LifeKeeper
配置中,
你应当配置有一个串行口通信路径。串口通信路径需要利用
RS232
的拟调解线路来与
LifeKeeper
系统相连接。
(3)
共享磁盘
你可以定义一个共享磁盘分区来作为
LifeKeeper
的通讯中介。可以只使用小至
1MB
的分区,当然,也可以使用更大的空间。
LifeKeeper
假定,当通过心跳信号检测其它服务器失败时,则认为此服务器是关闭的。因此,为了避免不必要的失效切换,最好建立两种以上独立的物理路径,使用至少两种心跳。
例如,如果两个服务器被一个串口连接起来,并且,从属服务器来的心跳信号无法被主服务器所检测到,则下面之一是可能引起这一现象的原因:服务器的
RS-232
卡或者端口失败电缆失效、主服务器暂时挂起、主服务器失败,
失效切换只可能在最后一种情况下才发生。因此,节点间的多种通信路径可以帮助避免不必要的失效切换。
(二)
Steeleye LifeKeeper
配置示范
软件、硬件配置
a
、软件:
Steeleye Lifekeeper
及
Recovery Kit b
、硬件:服务器可以是任何
Iw2kel
基础上的平台,
Server
的型号、配置不必一致,只需硬件平台能保证
W2K
运行;磁盘阵列正常使用。
1
、
Steeleye LifeKeeper
运行机制
I
、共享的
SCSI
和
LifeKeeper
软件锁定
LifeKeeper For Winddows W2K
软件锁定:
LifeKeeper
管理共享磁盘上的数据,以防止多个服务器在同一时间访问数据。
LifeKeeper
在逻辑设备级(卷)上控制对数据的访问,并让
Windows 2000
软件或硬件
RAID Cow2krollers
管理物理级。有了
Lifekeeper For Windows 2000
来管理对共享数据的访问,用户就可以不必担心群中的其它服务器访问数据时,
可能会带来的数据访问冲突。
LifeKeeper
自动在被应用程序定义为共享资源的磁盘卷上设置锁定。当被保护的应用程序由一个服务器被移动
/
转换到另一个服务器时,
LifeKeeper
控制这些锁定,以保证激活服务器对共享卷的访问。
在主系统发生故障的情况下,
次节点系统将能够在磁盘上建立
SCSI
锁定,并在备份的系统上将资源投入使用。
II
、
Local Recovery
(局部恢复)
Lifekeeper
在快速检查(
Quickcheck
)和深入检查(
deepcheck
)的时间间隔执行预先定义的行为,以察看资源本身是否失效。如果快速检查和深入检查均局部告失败,系统将尝试局部恢复资源。如果尝试成功,资源将不会向下一优先级的节点进行失效切换(
failover
)。
如果局部恢复尝试失败,系统将向下一优先级的节点进行失效切换。
例如,你可以在
LifeKeeper
服务器上配置多块
NIC
卡,
当定义的
NIC
发生故障时,
你就可以配置将
IP
资源切转到另一个
NIC
上,从而避免不必要的失效切换。
III
、
Failover
(失效切换)
指定主要的节点或资源失败时,重新恢复资源的过程。一个失效切换通常是没有事先计划的,它将发生在一个被从属系统所检测到并确定为失败的情况下。
IV
、
ACS
(管理员可配置的迁回)
Administrator Configurable Switchback
(
ACS
)允许
LifeKeeper
管理员通过命令行或
GUI
界面来指定资源,其所在
LK
节点发生故
障而后又恢复正常,该资源将被自动地切换回到原来节点上。可能的值是
Iw2kelligew2k
(智能的)和
Automatic
(自动的)。如果选择
Automatic
,那么,一旦发生故障的节点回到服务状态时,被配置失效切换的层次都将被切换回到该节点上。如果策略是
Iw2kelligew2k
,即使当发生故障的节点回到服务状态时,被配置失效切换的层次也会留在它们被失效切换到的节点上,等待由管理员决定合适的时间进行切换。
V
、
Switchover
(正常切换)
指用一个有顺序的方式关闭资源,然后将它们恢复到一个备份系统的过程。这通常发生在当你处于维护或者测试模式中的情况下。这时,没有任何东西失败。
2
、工作方式
I
、
Active/Standby
在一个激活
/
备用对中,
主节点处于处理状态,从属节点处于备用状态,以防主节点上发生失败。备用系统可以是一个小一点、性能低一点的系统,但是,当主节点失败时,它必须有保证资源可达性的处理能力。例如,假设
W2K Server1
是主
"
激活
"
节点,
W2K Server2
是次
"
备用
"
节点。如果
W2K Server1
发生故障了,它的被保护资源由
W2K Server2
节点来恢复。当节点
W2K Server1
恢复后,
资源可以被
W2K Server1
重新获得。然而,当
W2K Server2
节点失败时,
W2K Server2
节点上并没有需要被
W2K Server1
节点恢复的资源。
II
、
Active/Active
在一个激活
/
激活对中,
两个节点都是激活的处理器,但是它们也可分别作为其对应节点上的资源和资源层次的从属节点。
在激活
/
激活的图表中,有两个主要应用:
APPA
处于
Volume w
中,并且在
W2K Server1
上激活。
APPB
存储在
Volume M
上,并且在
W2K Server2
上激活。在这一配置中,
W2K Server1
应该是
Volume W
:资源的主节点,
W2K Server2
应该是
Volume M
:
\
资源的主节点。
当
W2K Server2
失败时,
LifeKeeper
应该将
Volume M
:
\
转换到
W2K Server1
上去。如果系统资源是足够的,这一转换不会影响到已经在
W2K Server1
上运行的
APPA
,转换只是简单地将
W2K Server2
上的被保护应用程序(
APPB
)加到
W2K Server1
的运行负载上去。
III
、
N-Way
(
N=3
,
N=4…… N=16
)
N-Way
配置是激活
/
激活或激活
/
备用的一个有三到十六个服务器的扩展。服务器
A
被配置为服务器
B
和服务器
C
的备份。而且,服务器
A
可以被配置为除了服务器
B
和服务器
C
的其他服务器做备份。当任何一个服务器发生故障时,被保护的应用程序被从该服务器上转到备用的服务器上。
在
N-WAY
配置中,可以配置
Cascading Recovery
(层叠恢复)。当主节点发生故障时,层叠恢复允许多个从属节点被按照一定的优先级次序恢复一个资源或层次。对于在一对节点上的资源恢复,如果节点
A
发生故障了,资源将会失效切换到节点
B
上;如果节点
B
再发生故障而节点
A
仍然不可用,资源将会失效切换到节点
C
上。多个从属节点被指定一个恢复优先级。在上面的例子中,节点
A
有最高的优先级,节点
B
有第二优先级,而节点
C
有最低优先级。
LifeKeeper
按优先级次序测验节点来决定在失效切换时哪一个服务器将进行工作。