一:概述:
IBM EXP300/400
是
IBM
公司在
SCSI
产品上的主力存储设备,它采用独有的
RAID
卡的方式,有效的保障了数据的安全性。在双机热备方案是稳定性领先业内其它磁盘阵列及磁盘柜方式,主要的优点表述如下:
双机双
RAID
卡方式可以有效的避免一个
RAID
卡或一个磁盘阵列控制器损坏带来的数据丢失,安全性比同类产品要高。
同时
IBM
的
Server RAID
卡同其它
RAID
卡不同,其它厂商的
RAID
卡在做双机的情况下可以在两台服务器上同时看到
EXP300/400
上的磁盘,这样现在市场上的大部分双机热备软件就可以支持它。但它带来的问题依然严重,一方面是硬件的兼容情,其它厂商的
RAID
卡同
EXP300/400
存储一点兼容性方面的问题。另一方面这种
RAID
方式不能使用
RAID
的
Hot Spare
功能,因为当一块
EXP300/400
磁盘柜上的磁盘发生故障时,
Hot Spare
会起做用,但是此时由于两块
RAID
同时控制磁盘柜,这时极容易发生磁盘柜死锁的故障。但
IBM
的
EXP300/400
和
IBM
的
Server RAID
卡配合就不会出现这种情况。原因是,
IBM
的
Server RAID
在双机使用中只能允许一台服务器看到磁盘阵列的硬盘,另一台看不到,这样就不会出现上述的故障。
所以说,
IBM
的产品系列有着较高的可用性及安全性,但由于存在这种两台主机只能由一台主机看到磁盘柜的原因,所以市场上大部分双机热备软件不能支持
IBM EXP300/400
这样的系统。
现在市场上可以支持此系统的只有
MS Advance Server Windows2000
版本,但微软的产品在支持上又存在成本高,各种检测功能不全的现象,从使这样一套优秀的产品不能发挥其应有的作用。
二
PlusWell
容错产品的特色
一
)
:基于
IBM
的产品特色,我们将容错软件基本特性在本软件中充份体现:可以被
PlusWell HA
软件保护的资源有:
1
:
卷(
Volume
)
2
:
IP
地址
3
:共享文件
4
:管理器服务器名称
5
:应用程序
(
数据库
)
6
:用户自定义软件
二
)
:
心跳故障检测
Heartbeat
PlusWell HA
容错软件
在集群节点间保持着间歇的通信信号,也叫做心跳信号,是错误检测的一个机制。即通过每一个通信路径,在两个对等系统之间进行周期性的握手
,
如果连续没有收到的心跳信号到了一定的数目,
PlusWell HA
容错软件
就把这条路径标示为失效(红色)。
如果你只定义了一条通信路径,当
PlusWell HA
容错软件
把这唯一的一条通信路径标为失效时,
PlusWell HA
容错软件
便立即开始恢复过程。然而,如果你有冗余路径,
PlusWell HA
容错软件
能够通过第二条路径确定是系统故障还是只是通信路径有问题。如果
PlusWell HA
容错软件
开启优先级第二的通信路径并收到了心跳信号,它就不开始
failover
恢复,只需要把第一条通信路径标成红色(失效),作为信号告诉你需要修复有故障的路径。
一般情况下
PlusWell HA
容错软件
只在下列事件发生时,启动系统恢复功能:
所有的通信路径故障。如果所有节点都没能收到心跳信号,
把所有通信路径都标为失效,
PlusWell HA
容错软件
开始安全检查。
安全检查失败。当所有通信路径故障时,
PlusWell HA
容错软件
向整个网络发出安全检查信号。如果信号指出配对系统还“活”着的时候,
PlusWell HA
容错软件
不启动
Failover
。如果安全检查没从配对节点返回信号,
PlusWell HA
容错软件
就开始
Failover
。同时可以以多种方式
mail
,传真或其它的手段通知用户来处理应急事务。
通信路径
PlusWell HA
容错软件
支持在节点之间和心跳通讯中,使用如下通讯路径:
(1) socket
,
即套接字。你使用任何的网络硬件接口,只要它能够支持
TCP/IP
的通讯协议。这样的硬件包括:以太网、快速以网。
(2)
串行口
在
PlusWell HA
容错软件
配置中,
你应当配置有一个串行口通信路径。串口通信路径需要利用
RS232
的拟调解线路来与
PlusWell HA
容错软件
系统相连接。
PlusWell HA
容错软件
假定当通过心跳信号检测其它服务器失败时,则认为此服务器是关闭的。因此,为了避免不必要的失效切换,最好建立两种以上独立的物理路径,使用至少两种心跳。
例如,如果两个服务器被一个串口连接起来,并且,从属服务器来的心跳信号无法被主服务器所检测到,则下面之一是可能引起这一现象的原因:
服务器的
RS-232
卡或者端口失败
电缆失效
主服务器暂时挂起
主服务器失败
失效切换只可能在最后一种情况下才发生。因此,节点间的多种通信路径可以帮助避免不必要的失效切换。
三:软件拓扑
以下是结合
IBM EXP300/400
产品的拓扑结构:
说明:
I
、共享的磁盘柜方式
PlusWell HA
容错软件的
LUN
切换
PlusWell HA
容错软件的
LUN
切换
:
PlusWell HA
容错软件
管理共享磁盘上的数据,可以有效的将磁盘阵列的
LUN
在
PlusWell
软件的配合下,顺利的切换到备用服务器上。并用
RAID Controllers
管理物理级。有了
PlusWell HA
容错软件
来管理对共享数据的访问,用户就可以不必担心双机热备份中有关磁盘的切换,可能会带来的数据访问冲突。
PlusWell HA
容错软件
自动在被应用程序定义为共享资源的磁盘卷上做主备机的切换。当被保护的应用程序由一个服务器被移动
/
转换到另一个服务器时,
PlusWell HA
容错软件
控制这些锁定,以保证激活服务器对共享卷的访问。
在主系统发生故障的情况下,
次节点系统将能够在磁盘上建立
SCSI
锁定,并在备份的系统上将资源投入使用。
II、
Local Recovery
(局部恢复)
PlusWell HA
容错软件
在快速检查执行预先定义的行为,以察看资源本身是否失效。如果快速检查告失败,系统将尝试局部恢复资源。如果尝试成功,资源将不会向下一优先级的节点进行失效切换(
failover
)。如果局部恢复尝试失败,系统将向下一优先级的节点进行失效切换。
III、
Failover
(失效切换)
指定主要的节点或资源失败时,重新恢复资源的过程。一个失效切换通常是没有事先计划的,它将发生在一个被从属系统所检测到并确定为失败的情况下。
IV、
管理员可配置的迁回
允许
PlusWell HA
容错软件
管理员通过命令行或
GUI
界面来指定资源,其所在
LK
节点发生故障而后又恢复正常,该资源将被自动地切换回到原来节点上。可能的值是
Intelligent
(智能的)和
Automatic
(自动的)。如果选择
Automatic
,那么,一旦发生故障的节点回到服务状态时,被配置失效切换的层次都将被切换回到该节点上。如果策略是
Intelligent
,即使当发生故障的节点回到服务状态时,被配置失效切换的层次也会留在它们被失效切换到的节点上,等待由管理员决定合适的时间进行切换。
V、
Switchover
(正常切换)
指用一个有顺序的方式关闭资源,然后将它们恢复到一个备份系统的过程。这通常发生在当你处于维护或者测试模式中的情况下。这时,没有任何东西失败。
四
:
PlusWell HA
的
关键特点
1.
不用增加任何额外硬件投资,纯软件方式实现双机容错,且对备机无硬件配置要求。
2.
可支持DB2,Notes、Exchange、SQL Server、Sybase、Informix、Oracle 、SAP等多种系统的应用层热恢复。
3.
支持远程灾难备份。
4.
支持共享磁盘阵列柜和镜像两种方式,给用户提供了选择上的灵活性,同时也能适应各种机型、网络结构、软件平台及应用系统。
5.
PlusWell HA
容错软件
在镜像或共享磁盘阵列任意方式下,均能实现两台服务器各自运行不同应用且相互热备份,即实现双Active运转模式。
6.
使用共享磁盘阵列柜方式时,最多可以支持32个节点,远远大于其它类似系统所支持的2个节点数。
7.
最大限度地保护用户端的应用连续性。用户的硬件资源(如网卡,软件资源如NT操作系统、数据库管理系统、数据库应用系统、电子邮件系统等)均能处于PlusWell HA
容错软件
的保护之下,当这些被保护资源出现技术故障时,PlusWell HA
容错软件
可随时实施系统资源切换。如此,PlusWell HA
容错软件
真正实现了用户硬件或是软件资源发生故障时系统及应用层上的在线热切换。
8.
PlusWell HA
容错软件
占用系统资源极少,不增加网络负荷,且不打扰任何具体应用系统的任何操作。
9.
PlusWell HA
容错软件
真正实现无人值守,全自动地实现应用资源切换,且图形界面操作,简单方便。
10.
自投入使用以来,已经历了大量交易高峰的实际考验,其执行效率很高且运行十分稳定可靠,全球市场占有率第一。
11.
目前PlusWell HA
容错软件
有Windows NT/2000、Linux Sco UNIX三种版本。