ROSE HA高可用性软件介绍

第一部份 高可用性系统概述

 

一、计算机系统的故障分类以及故障发生的概率分析

发生

原因

计算机软硬件故障

人为操作失误

电脑病毒

黑客入侵

失窃

 

资源不足引起的计划性停机。

 

生产地点的自然灾害。

产生

原因

硬件失效(如硬盘毁坏)。

软件设计缺陷——操作系统和应用程序有时存在缺陷使数据被破坏(如Y2K问题)。

人为因素不可避免——失误可以很容易地删除重要数据。

外面的系统破坏者在蓄意攻击系统。

业务的快速增长。

火灾、闪电、水灾、飓风、龙卷风以及地震都可能发生。

发生

概率

可能性最大、最频繁。

经常发生、与企业人员、网络设计有关。

业务增长越快的企业,发生亦越频繁。

发生概率较小。

预防

方法

实现硬件冗余,提高业务系统的高可用。

提高人员素质和系统自动化运行管理,加强网络安全防范。

系统设计考率业务的发展。

异地保存。

具体

措施

磁盘阵列

本地双机热备份

数据冷备份

安装杀毒软件

网络防火墙

本地双机热备份、增加硬件资源、软件升级。

数据冷备份

灾难恢复中心

 

二、高可用系统解决的问题

    对现代企业来说,利用计算机系统来提供及时可靠的信息和服务是必不可少   的另一方面,计算机硬件与软件都不可避免地会发生故障,这些故障有可能给    企业带来极大的损失,甚至整个服务的终止、网络的瘫痪。对于那些任何停工都将产生严重的财产损失、名誉损失、甚至生命损失的关键性应用的企业或公司,系 统的高可用性显得更为重要。因此,必须有适当的措施来确保计算机系统提供不间断的服务,以维护系统的可用性。信息系统的可用性通常在两种情况下会受到影 响,一种是系统当机、错误操作和管理引起的异常失败,另一种是由于系统维护和升级,需要安装新的硬件或软件而正常关机。高可靠性软件必须为这两种情况提供 不间断的系统服务。

 

三、高可用性的定义及与容错技术比较
(1)高可用性与容错技术

高可用性HA(High Availability)指的是通过尽量缩短因日常维护操作(计划)和突发的系统崩溃(非计划)所导致的停机时间,以提高系统和应用的可用性。它与被认为是不间断操作的容错技术有所不同。HA系统是目前企业防止核心计算机系统因故障停机的最有效手段。
  容错FT(Fault Tolerant)技术一般利用冗余硬件交叉检测操作结果。当发现异常时,故障部件会被隔离开而不影响用户的操作。
  高可用性方案则利用更少的冗余部件同时由软件检测故障,一旦故障发生立即隔离损坏部件,通过提供故障恢复实现最大化系统和应用的可用性。
  容错技术随着处理器速度的加快和价格的下跌而越来越多地转移到软件中。未来容错技术将完全在软件环境下完成,那时它和高可用性技术之间的差别也就随之消失了。

(2)高可用性系统的功能

F 软件故障监测与排除

F 备份和数据保护

F 管理站能够监视各站点的运行情况,能随时或定时报告系统运行状况,故障能及时报告和告警,并有必要的控制手段

F 实现错误隔离以及主、备份服务器间的服务切换

(3)故障恢复

建立一个故障恢复系统,每一个重要部件都必须配有冗余备件,当一个部件出现问题时,它会自动被备件替代而不影响系统正常运行,这就是常说的故障恢复。
  高可用性系统的目标是尽量实现不停机操作。故障被掩饰掉,而且尽量不修改最终的应用程序。

(4)服务延续性

保持系统的正常运行非常重要,除了人为错误操作和管理引起的异常失败外,正常的软硬件维修时不影响系统运行也很关键。开放系统使大量供应商带来了大量不同 的软件产品,每一种产品都有自己的升级周期,最简单的系统也要有2到3个主要部件在不同时候做升级,这就大大降低了系统的可用性。因此,也需要为升级和阶 段性维护创建相应的容错环境。   

(5)实现高可用

高可用性更注重整体资源的可用性而不是某一物理部件的可用性,因此它有系统级和部件级之分。为了实现高可用性,服务器、应用程序以及周围环境被整体当作一个系统来看待。任何一个有可能影响系统正常运行的故障都会被发现和修复,保证系统尽快地恢复运行。


第二部分  ROSE HA高可用性软件

     美国ROSE数据公司(ROSE Datasystem Inc.)是一家专门从事高可用性系统设计及研发的公司,主要产品ROSE HA是基于Windows NT/2000、UNIX、LINUX、Solaris、SCO UNIX for IBM等操作系统平台的高可用性软件,为Client/Server结构的应用提供高可用性的解决方案。ROSE HA在国内的主要用户有:上海宝山钢铁公司、武汉市工商银行、沈阳电信局、上海埔东电信局、佛山人民银行、湖南邮电局、长沙电信局、上海汇廉商场、外经贸部、广东珠海公安局、邮电部OA系统、各地电信97工程及新华社等等。

一、 ROSE HA高可用性软件的工作模式

 (1)主从方式

工作原理:主机工作,从机处于监控准备状况;当主机宕机时,从机接管主机的一切工作,待主机恢复正常后,按使用者的设定以自动或手动方式将服务切换回主机上运行。

 (2) 双工方式

工作原理:两台主机同时运行各自的服务工作且相互监测情况,当任一台主机宕机时,另一台主机立即接管它的一切工作,保证工作实时。

二、 ROSE HA高可用性软件的组成

ROSE HA软件的组成

服务程序(Service

为客户提供服务的进程,如NFS或Oracle、Sybase、Informix等数据库服务。

HA代理(Agent

HA代理监视服务的可用性,并向HA管理进程报告服务的状态。

HA管理进程(HA Manager

HA管理进程是ROSE HA软件的核心进程,由它来初始化系统配置,接来自HA代理的信息,并通过私用网与其它服务器的HA管理进程通信,协调运行服务器与备份服务器间的关系。

GUI管理工具(Administration Tool

系统管理者通过GUI管理工具管理、监视服务的运行状态。

三、 ROSE HA软件的运行过程

    系统启动后,ROSE HA首先启动HA MANAGER管理程序,根据高可用性系统的配置结构初始化,然后启动必要的服务和代理程序来监控和管理系统服务。HA代理程序用来监控、监测、诊断和管理硬件软件服务。

代理程序检测到该服务处于活动状态,HA MANAGER就会认为该服务处于活动状态,HA MANAGER会定时通知后备服务器上的HA MANAGER,其每项服务处于正常。

当代理程序检测到某个服务发生故障时,它就通知HA MANAGER管理程序。HA软件首先会重新起动该服务多次(可由用户设定),如果启动不能成功,该服务会由HA转移到后备服务器上。

HA周期性地检测系统硬件的状态,如果硬件发生故障,HA会把与该硬件相关的服务转移到后备服务器上。

当某项服务发生转移时,HA首先在运行服务器上停止该服务,之后,由备份服务器上的HA在备份服务器上启动该服务。由于停止和启动该服务都需要一定的时间,所以当服务被切换(转移)时,该服务会有短暂的中断,转移完成后,服务自动恢复正常运行。

考虑到一些数据库系统(如Oracle、Sybase、Informix等)以及其他一些应用软件(如Domino Server、WWW Server等),ROSE HA在HA管理模块(HA Manager)的基础上,提供了一系列的Agent软件模块。

Agent为一个软件监视模块,监控数据库服务或其他应用服务的运行。当运行服务器发生故障时,由Agnet检测到之后,Agent向HA主控软件请求,进行相应的处理动作。

总之,ROSE HA软件极大程度上减少了人的介入,提高了系统的可靠性与安全性,使服务能高可靠的运行。

 

 
原文地址:http://blog.sina.com.cn/s/blog_4e362f570100iqrr.html

你可能感兴趣的:(HA高可用性)