2010年9月14日佛山大沥机楼网络故障日志

9月14日佛山大沥机楼坐席接入NGCC平台,组网是通过CN2组建VPN,将坐席直接接入到NGCC平台网,再由NGCC平台网出DCN网访问应用服务器,同时通过长线DNS服务器出公网,故障是长ping路由节点和应用服务器都会直接丢包和延时。

为解决该故障,首先通过更换楼层交换机减少交换机端口接入量并重新配置协议排除楼层汇聚出CN2的故障,但楼层出CN2直到DCN和DNS仍是存在丢包和延时;其次tracert观察走过的路由节点,发现ping到楼层汇聚正常,但到CN2就出现故障,于是把问题定位到接入CN2这一段;最后切换佛山PE接入CN2,观察正常,确定是主佛山PE有问题。故障得以解决,但其中有两点确值得学习:


1.人固有的自信和偏执会影响故障的处理。在处理故障时往往会以自己的解决方向为主导,但这个方向却未必正确,从而使故障陷入僵局。比如拨打测试接入码上,告诉其一大串号码,却只截取其中的一部分,并认为拨打号码中的一部分会接入其他局,而实际却是如此,但因其略懂这些号码的常识,便自信而且固执地截取了接入码中一部分来拨测,显然无法达到预期效果;再比如,故障显然有应用服务器和DNS都无法正常通信,这个时候处理故障就走到DNS故障上,于是又折腾了大半天,而其实非DNS故障,因为DNS和应用服务都在DCN网,到DCN网有问题自然到二者都有问题,最后终端取消DNS,故障依然存在,才排除了这点,最后再走应用服务器这条线,从NGCC平台网到DCN又排除后才将接入CN2的PE纳入故障范围,而实际上一开始就应该从接入着手,这也是因处理人当时的方向判断错误;


2.遇到问题或故障时冷静和谈定是先决。昨天故障处理一天下来,包括厂家工程师都处在极度烦躁中,没有人找到正确的方向去处理,只是在一顿抱怨。最后厂家陈总来定,打开组网图,一段一段ping,仔细观察,将问题定位到接入CN2的佛山PE,有分析能力还有实际操作的解决能力,这样的领导确实不多见,也使我对这个厂家由起初的鄙视转为认真评估,有此领导,这个厂家必有一定能力,能将方法和工具相结合去解决问题才是高手,如此领导实则少见。

 

厂家虽然在故障时故意搪塞和推卸责任,并把问题本质颠倒,但显然都是为了免责,我之前一直认为厂家无能力显然是自己愚蠢了,太低估对方大智若愚的智商了。我虽然心中对组网清晰,也想一段一段去跟,但我的角色非主导,而当时处理人的思路又无法统一到我这里,所以我相信在这个故障上,我是分析到位,为了证明主导人解决方向错误,我直接在DNS上做证明,结果不管有没配置DNS,都出现丢包和延时,才让主导人回到正确方向上,最后陈总过来,坐下来冷静地一段段观察,才定位主因。

 

从此次故障学习到:一是一旦陷入自信和固执或出现纠结,要适当地跳出来冷静分析和思考,同时在他人陷入错误方向时也应找到正确的方法和工具证明错了,才能使问题回到正确方向上,这点昨天已经做到了,但需要避免自己陷入这样一个困境;二是像厂家陈总那样,遇到问题和故障,先冷静,然后做下来找方法和工具,有方法没工具是突然,有工具没方法无所用,这点显然我自己已经做到了,但仍有待进一步学习,我虽非网络专业,但昨日也收获不少,ping/telnet/tracert几个命令还有写个bat就搞定,非此专业却仍具备分析和处理能力,证明做事逻辑的重要性,一理通百事明。

你可能感兴趣的:(Prose,网络,2010,应用服务器,dns服务器,工具,平台)