企业和事业单位的运转越来越依赖于计算机系统,如果一旦这个数据处理中心无法正常运转,就会造成业务停顿,导致不可挽回的损失。
    蓝科泰达凭借其丰富的研发经验,为您提供高可用性系列产品和优质的服务,推出了蓝科泰达双机容错解决方案,目的在于保证数据永不丢失和系统永不停顿。
一、            
拓扑结构图 
蓝科泰达高可用性平台设计方案,双机热备份(Hot Standby),采用PlusWell Cluster 容错软件。
纯软件双机容错解决方案_第1张图片
二、方案特点
    蓝科泰达双机容错系统结合了蓝科泰达服务器镜像产品的安全可靠性与双机容错技术高可用性的优点,相互配合二者的优势。蓝科泰达网络服务器针对双机容错技术做了许多优化和改进,满足了双机所有硬件的连接要求,并与第三方软件厂商合作,根据应用环境的实际情况,适用于UNIX平台上、Windows NT平台上以及开放源代码Linux平台上的多种集群软件。蓝科泰达双机容错系统是蓝科泰达提供的全套解决方案,并由蓝科泰达提供技术保障。
 
三、 双机热备份( Hot Active) 模式
    在正常情况下,一台为主机处于工作作态,另一台为从机,作为备份机,并时刻监视主机的运行情况。当主台主机出现异常时,不能支持信息系统正常运营,从机则主动接管(Take Over)主机的作业及IP地址,继续主持信息的运营,从而保证信息系统能够不间断的运行,而达到不停机的功能(Non-Stop),当主机恢复后,自动接管原来的作业,从机则将为备份机,并时刻监视主机的运行情况。
 
四、软件容错原理
(一) PlusWell Cluster容错软件提供了一个完全容错的软件解决方案,并提供数据、应用程序和通信资源的高度可用性。PlusWell Cluster容错软件不需要任何特别的容错硬件,并访问特定节点的配置数据。PlusWell Cluster容错软件会自动地提供错误检测和现场恢复。
在出现故障的情况下,PlusWell Cluster容错软件会将保护资源自动转换到一个根据预先设定好优先权的系统。在实际进行切换用户时,会经历一个十分短暂的休眠,但是,当系统完成了切换操作后,PlusWell Cluster容错软件会在所选择的节点上自动地恢复操作。
可以被PlusWell Cluster容错软件保护起来的资源是:
卷(Volume)
IP 地址
共享文件
管理器服务器名称
应用程序
定义的用户
2、心跳故障检测Heartbeat
PlusWell Cluster容错软件在集群节点间保持着间歇的通信信号,也叫做心跳信号,是错误检测的一个机制。即通过每一个通信路径,在两个对等系统之间进行周期性的握手,如果连续没有收到的心跳信号到了一定的数目,PlusWell Cluster 容错软件就把这条路径标示为失效(红色)。
如果你只定义了一条通信路径,当PlusWell Cluster 容错软件把这唯一的一条通信路径标为失效时, PlusWell Cluster容错软件便立即开始恢复过程。然而,如果你有冗余路径, PlusWell Cluster容错软件能够通过第二条路径确定是系统故障还是只是通信路径有问题。如果PlusWell Cluster 容错软件开启优先级第二的通信路径并收到了心跳信号,它就不开始failover恢复,只需要把第一条通信路径标成红色(失效),作为信号告诉你需要修复有故障的路径。
一般情况下PlusWell Cluster容错软件 只在下列事件发生时,启动系统恢复功能:
所有的通信路径故障。如果所有节点都没能收到心跳信号, 把所有通信路径都标为失效, PlusWell Cluster 容错软件开始安全检查。
安全检查失败。当所有通信路径故障时,PlusWell Cluster容错软件向整个网络发出安全检查信号。如果信号指出配对系统还“活”着的时候,PlusWell Cluster容错软件不启动Failover。如果安全检查没从配对节点返回信号,PlusWell Cluster容错软件就开始Failover。
因而,为了减少由于潜在的通讯错误所引起的不必要的系统切换,建议您使用不同介质的多条通信路径。
3、        通信路径
   PlusWell Cluster容错软件支持在节点之间和心跳通讯中,使用如下通讯路径:
(1) socket,即套接字。你使用任何的网络硬件接口,只要它能够支持TCP/IP的通讯协议。这样的硬件包括:以太网、快速以网。
(2)串行口 在PlusWell Cluster容错软件配置中, 你应当配置有一个串行口通信路径。串口通信路径需要利用RS232的拟调解线路来与PlusWell Cluster容错软件系统相连接。
PlusWell Cluster 容错软件假定当通过心跳信号检测其它服务器失败时,则认为此服务器是关闭的。因此,为了避免不必要的失效切换,最好建立两种以上独立的物理路径,使用至少两种心跳。
例如,如果两个服务器被一个串口连接起来,并且,从属服务器来的心跳信号无法被主服务器所检测到,则下面之一是可能引起这一现象的原因:
服务器的RS-232卡或者端口失败
电缆失效
主服务器暂时挂起
主服务器失败
失效切换只可能在最后一种情况下才发生。因此,节点间的多种通信路径可以帮助避免不必要的失效切换。
(二)PlusWell Cluster容错软件配置示范
镜像盘
Heartbeat  Connections
TCP/IP
 
RS232串口
PlusWell With
  Mirroring
 应用系统
Windows NT/2000
硬件平台
PlusWell With
  Mirroring
 应用系统
Windows NT/2000
硬件平台
 
Server1
Server2
 
 
 
 
 
 
 
 

使用带有PlusWell Cluster 镜像功能的PlusWell Cluster 容错软件 来进行配置,其中 Server1 是主服务器,Server2 是从服务器。
当一个客户向 Server1上的镜像卷发出写命令,PlusWell Cluster 镜像软件保证写命令通过网络送给 Server2,Server2上的写操作成功完成时,Server1上的写操作才能完成。因此,两处系统能够同时更新,因此主、从服务镜像卷中的数据一致性得以保证。
软件、硬件配置
1、软件:PlusWell Cluster
2、硬件:服务器可以是任何INTEL基础上的平台,两台Server的型号、配置不必一致,只需硬件平台能保证系统运行。
五、双机热备 + 数据时实备份
数据备份
工作方式分如下两种方式:如图1和图2
磁盘阵列
备用服务器
主服务器
                            (图1)
(1)2对1备份方式。(利用磁盘阵列+HA+Mirror完成双机热备份及数据时实备份)
主服务器与备用服务器组成一对双机热备份系统,数据备份服务器主要做数据时实的备份。
HA工作原理:
利用PlusWell HA 及 PlusWll Mirror两个软件可以将主服务器与备用服务器组成一对双机热备系统。
数据备份服务器:主要接收主服务器与备份服务的数据,做数据的时实备份。
(2)层叠方式(利用纯软件方式双机热备及Mirror的时实备份功能)
                             (图2)
HA工作原理:
利用PlusWell HA 及 PlusWll Mirror两个软件可以将主服务器与备用服务器组成一对双机热备系统。
备份工作原理:
备份服务器由HA系统的备机来提供数据的备份。
 
1 PlusWell Cluster  Mirroring 运行机制
I、通讯路径
“Heartbeat”是服务器间发出的周期性检测信息,它允许PlusWell Cluster 容错软件决定服务器的状态。当一个服务器向另一处服务器发送一个“Heartbeat”消息,并且在规定时间段里没有得到任何回应时,发送消息的服务器开始评测接收消息的服务器是否正在发生故障。多种“Heartbeat”检测信号保证故障检测的可靠性,以防止不必要的资源服务切换。 PlusWell Cluster 容错软件为PlusWell Cluster镜像提供下列途径上的“Heartbeat”通信:
(1)      Socket (TCP/IP )
(2)      RS-232 TTY通信端口(Communications port )
PlusWell Cluster镜像软件消除了共享SCSI 的需要。
II、主服务器发生故障
客户向Server1上运行的一个程序发送一个请求,而Server1出现写错误时,使用带有PlusWell Cluster镜像功能的PlusWell Cluster 容错软件能够检测出系统失败。然后,PlusWell Cluster 容错软件执行恢复规则,试图关闭Server1上的应用,并且在Server2上重新启动它们。Server2现在承担主服务器的角色,镜像卷地址从 Server1转移到Server2上去,这个转换过程对用户来说是透明的,客户一般不会发现系统曾经发生这样的故障。
一旦系统发生的故障被被纠正过来,管理员必须重新同步镜像卷。重新同步这些卷并被锁定,目的是不接受任何客户的存取。在这个过程中,非镜像应用不会受到影响,因此这些应用可以毫无干扰的继续运行。系统管理员可以选择何时对镜像卷进行同步,通过提供选择时间的灵活性达到对整个系统的影响减为最小。
重新同步主服务器和从服务器上镜像的时间依赖于卷的大小。 一般情况下,在100MB 以太网上, 恢复1Gigabyte(GB)的数据只需要10分钟。
III、从服务器发生故障
当从系统发生故障时,受影响的镜像卷标志为Broken。有必要纠正这些故障,并重新同步有关的卷。当从系统发生故障时,任何写请求不会送给从系统。当从服务器发生故障后再次恢复时,镜像管理器用来重新同步主镜像卷和从镜像卷。