服务器软件故障是在 服务器故障中占有比例 最高的部份,约占70 %,解决的过程必须更 加深思熟虑。导致服务 器出现软件故障的原因 有很多,最常见的是服 务器BIOS版本太低 、服务器的管理软件或 服务器的驱动程序有B UG、应用程序有冲突 及人为造成的软件故障 。下面分别举例说明各 类软件故障的维修方法 。
  有一台HP LH6000R服务器 ,开机后,系统日志报 电压调节模块异常(V RM)的错误,报错的 信息是:“Volta ge Regulator Module (VRM) over/under -voltage 2.88V/0V”。 从表面来看,极有可能 是服务器的电压调节模 块或其它硬件出现故障 ,极容易导致维护人员 认为是硬件故障。
  维护人员立刻使用 其它LH6000R上 的硬件来测试,发现即 使使用新的配件,此服 务器依然报VRM错。 就在一筹莫展的时候, 维修工程师带来了最新 的CPU管理板(CP U Management Control)的固 件(FIRMWARE ),于是升级了CPU 管理板块的FIRMW ARE后,服务器恢复 立即正常。
  FIRMWARE 升级方法是,在服务器 的NAVIGATOR (导航光盘)中提取C PU管理板(CMC) FIRMWARE的刷 新程序,程序为FLA SH.EXE,然后将 从网上下载的LH6K C.BIN(CPU管 理板的FIRMWAR E)拷贝到一张DOS 启动盘上,用这张盘启 动服务器。然后在DO S下运行”FLASH /CMC A:LH6KC.BI N”,刷新完成后重新 启动服务器后即可。这 种升级方法也适合刷新 系统BIOS等,只是 FLASH命令的参数 不同以及更新FIRM WARE及BIOS文 件名不同,参数请参考 服务器的说明。
  任何一款服务器的 FIRMWARE及B IOS都会有不同的B UG,因为BUG在所 难免,所以我们不能错 误地认为服务器的BI OS程序就很完善,而 应该经常更新服务器的 FIRMWARE及B IOS,只是在升级之 前应该小心谨慎,错误 的升级方法会导致严重 的后果。
  目前流行的中高档 服务器都拥有强大的管 理程序,为客户提供了 方便的管理途径;服务 器也拥有各种操作系统 下的驱动程序,方便了 客户在各种操作系统中 的使用。但是,世上任 何一款程序都会有一些 BUG,这些BUG将 影响用户使用。但是服 务器厂商总是会在第一 时间内开发出新的程序 ,客户只需要及时更新 这些程序就可以避免这 类故障。
  当服务器的软件故 障为此类时,表现的现 象也不尽相同。一般来 说,管理程序BUG会 导致系统速度变慢,C PU占用率变高,无法 正常使用某些功能等; 驱动程序的BUG会导 致死机、与某些软件有 冲突,磁盘工作不稳定 等。查看管理程序是否 出错的最好的办法就是 在系统中首先禁止此类 管理工具,再观察服务 器是否还是异常。
  由于管理工具是随 着系统启动而启动的, 所以应首先避免它的启 动。以WINDOWS NT4为例,就首先在 管理工具服务中禁用某 些服务器软件服务,再 修改注册表中的启动项 即可。如果是驱动程序 有问题的话,就以安全 模式进入系统,看是否 正常。但是需要注意的 是,在安全模式中,系 统速度变慢是正常的( 特别是磁盘I/O方面 )。
 服务器的管理人员就 应该经常在服务器网站 上下载最新的管理工具 程序及驱动程序。这样 会减少很大一部份软件 故障的发生。
  相比之下,软件冲 突造成的故障判断比较 困难,需要管理人员有 比较丰富的经验以及敏 锐的观察力。
  曾经有一位朋友告 诉我说,他有一台浪潮 的服务器无法安装SQ L SERVER 2000,已经重装N 次NT了,排除是系统 故障。而这唯一的服务 器又将作为非常重要数 据库服务器,因此非常 着急。于是我陪着朋友 去了他的公司查看。这 台服务器所在的机房是 非常标准、完善的机房 ,我检查了这台服务器 的情况,发现并没有硬 件上的故障,于是排除 了光驱读盘力差的可能 。
  但是,朋友刻的S QL SERVER 2000光盘引起了我 的怀疑,我让他拿出了 正版的SQL SERVER安装,结 果还是不行。在安装的 过程中,没有出现丝毫 错误,可就是在运行的 时候会自动退出,没有 任何提示。但是,我在 管理工具中的事件查看 器的系统日志中却发现 了一条信息:wind ata.exe导致一 个无效的数据溢出。W indata是朋友自 己编写的一个程序,而 且是随操作系统启动而 启动的程序。我立即结 束掉这个进程后,再运 行SQL一切正常。
  对于此类软件故障 ,操作员最好先查看有 关的日志,看看系统中 是否有可疑的进程。目 前的服务器无论是高端 还是低端,对于SQL 等标准程序的支持是相 当可靠的,所以排除的 重点就是结束可疑进程 。
  还有一种软件故障 是人为因素造成的,它 一般是人为误操作(包 括没按操作流程的操作 )、意外关机(包括电 源突然不供电)或非正 常关闭应用程序造成的 。
  人为误操作因素只 要加强管理都可以避免 此类故障发生。在这里 就详细说明意外关机或 非正常关闭程序造成故 障的方法。
 正常关闭系统程序非 常重要,尤其是WEB 服务器。我的一个朋友 就是因为没有正常关闭 系统程序而经历了一次 数据损坏甚至丢失的经 历。我的朋友是使用的 HP web hosting server appliance, 因此我向他提供了一些 使用规则。
  这些方法对于服务 器的维护非常有效,主 要包括了正确的关闭系 统程序、怎样避免数据 丢失以及非正常关闭系 统后的恢复方法。下面 以我朋友的HP web hosting server appliance为 例(使用的是UNIX ,但思路对于其它操作 系统均有效)。
来源: 服务器数据恢复中心
技术 服务器 休闲 服务器

0

收藏

上一篇:Solaris 8 Contai... 下一篇:在 Access 中使用“存储过...
yxlzyyz

128篇文章,23W+人气,0粉丝

Ctrl+Enter 发布

发布

取消