网络医院的故事(第一部:故事二)

                                                  故事之二 
UPS 电源滤波质量下降,接地通路故障,谐波大量涌入系统,导致网
络变慢、数据出错
      
[症状] 今天的病人是一家著名的证券公司。上午   9:45 ,用户来电请求紧急救援,说
大户室中的一群声称遭受巨额无端损失的愤怒的股民们正聚集在营业部计算中心的机房门
前,质问为什么实时交易的动态信息显示屏幕出现大片空白,数据刷新和交易的速度都极慢,
且经常中断,根本无法进行交易。扬言如果不立即恢复交易,将砸掉证券交易所的计算机。
交易大厅的散户门也开始向机房云集,如果不及时处理,情绪激动的股民们很可能真的会将
营业部计算中心的网络设备砸个希巴烂。放下电话直立即直奔该营业部,途中继续用移动电
话了解得知,该网络为 10M 以太网,用户数为 230 个。从卫星接收广播的行情数据,并回
传交易信息。由于从卫星接收机监测口观察接收数据完全正常,故网管人员初步判定是网络
系统的问题。两个月前就开始有传输数据错误的现象出现,有时数据更新出现空白,数据更
新速度偶尔变慢,有时出现断续。虽用网管和协议分析仪检查过,但因这种 " 症状 " 并不连
续出现,且对网络的速度和股民的交易基本没有影响,故一直心存侥幸,没有彻底查找真正
的故障根源。前天参加 " 第二轮证券系统 Y2K 统一认证测试 " ,顺利通过。利用剩余时间对
硬件设备进行了检测和维护,之后进行联网检查,网络表现正常。不料今天开市就出现严重
问题。
 
[诊断过程] F683 网络测试仪监测网络 30 秒,观察网络流量为 81 ( 但网管报告为
0.2%) ,错误帧 97.6% 。错误类型为 Ghosts( 93 ) FCS 错误 ( 又称 CRC 错误 ) Jabber
即幻象干扰、帧校验错误和超长帧,这表明网络中有大量的非法数据包存在。此类症状一般
以电磁干扰和接地回路方面的问题居多。为了确定干扰源的准确位置,将大部分与工作站相
连的集线器组电源关断,服务器继续工作,观察错误率降为   87 %,仍然很高。重新打开集
线器组电源,用 F43 电源谐波测试仪观察,发现谐波含量严重超标 ( 最高 970mV) 。该网络用
一台大型 UPS 电源给所有网络设备供电,测试 UPS 输入电源谐波,约为输出电源谐波含量的
30 %,明显低于输出端的指标,断定为内谐波含量超标。启动小型备用 UPS 后,网络恢复正
常工作 ( 为减少负荷,网络设备分批轮换接入 ) ,但网络测试仪显示仍有错误存在,错误率 (
象干扰 ) 下降为 1.3 %。再次关断集线器组的电源,类型为 Ghosts 的幻象干扰错误率下降为
0.8 %,证实仍存在由接地回路串入的幻象干扰,且应该是从主通道进入。摇动卫星接收机
的数据输出电缆,幻象干扰时有时无,拔下电缆则干扰消失。网管人员回忆前日维护机器时
曾动过该电缆。由此造成连接不良。为使股民能继续交易,稳定情绪,在更换电缆后又将原
UPS 启动继续工作提供服务。收市后再更换大型 UPS ,故障彻底排除。
 
[诊断点评] 故障原因有二,一是 UPS 对电源的净化能力下降,网络外谐波容易从电
源系统串入网络系统,为重大故障的发生提供了基础,但只是累积的内谐波超标还不足以引
发致命问题。二是接地回路问题,给大量的内谐波串入网络提供了通道。内谐波是指从电源
净化设备的输出端比如 UPS 的输出端测得的谐波功率,由各种用电设备产生 ( 网络设备绝大
多数都采用开关电源,本身就是一个较大的谐波源 ) 。本案中,大量的内谐波功率叠加后从
卫星接收机数据输出电缆串入交易网络,一方面以幻象干扰的形式侵蚀网络带宽 ( 此时网络
测试仪监测到的错误类型即为 Ghosts) ,当以太网的网络总流量高于 80 %时,会导致绝大多
数的网络瘫痪;另一方面,串入的内谐波将干扰正常数据传输 ( 与正常的卫星广播数据叠加,
表现为 FCS 帧错误和少量长帧 ) ,使卫星接收机接收到的数据出错,显示屏出现大片空白或
不能实时更新数据。本故障为累积故障,两个月前因 UPS 性能下降就开始出现少量干扰超标,
不过这没有引起网管人员的足够重视。前天维护设备后又增加了电缆接地回路的干扰问题。
但因当时未将卫星接收机连入网络,网管人员仅检查了网络部分的工作状况,所以此时的网
络表现肯定是正常的。直到今天临近股市开市,当接通卫星广播数据的输入通道时,问题才
爆发出来。此时内谐波干扰信号大举入侵网络,几乎造成网络瘫痪。
关断集线器组电源,内谐波总功率下降,干扰信号强度减弱,错误率自然有所下降。
更换 UPS 电源后,错误率大幅下降 ( 理论上应降为零 ) 。但因接地回路问题使 50Hz 电源及其
高次谐波感应信号仍能进入网络形成较小数量的错误帧。需要注意的一点是,一般人在更换
UPS 后看到网络恢复正常工作即认为故障已经排除,因此很容易忽视仪器监测指示仍存在的
少量错误 (1.3 ) ,这可能使 " 接地回路问题 " 这一重大故障隐患得以长期存在下去。
此故障的诊断网管系统基本上无能为力。
 
[建议] 电源谐波功率含量和网络错误率要定期测试,当发现错误帧时一定不要掉以
轻心。另外,一路电源能带动的工作站建议不要超过 30 台,否则应象划分网段那样重新划
定供电区域。以免内谐波功率累积过大,超过设备的容许范围。如果您的网络可靠性要求很
高,或者您的网络对您来说非常重要,那么建议您将主要的网络设备如服务器、路由器等,
在网络规划设计时就选择由单独的 UPS 供电。

你可能感兴趣的:(网络,职场,休闲)