Cisco B200 M3刀片服务器Discovery失败故障处理

客户刀片服务器升级,购买了两台Cisco B200 M3,到货后我们查看了一下B200 M3的版本,然后对UCS Manager进行了升级,可是升级完之后发现这两台刀片服务器在Discovery过程中,只走到了7%就失败了!如下图所示:

wKioL1aLbh3yCJ_tAAVW-PfVfyE410.jpg

另外,查看报警信息和思科文档如下:

wKioL1aLbquwcyXkAAHSB9DvMCg874.jpg

wKiom1aLboeSPVymAAG7vcN3438327.jpg

看上图的文档也没有得到有用的信息。问题究竟出在哪里?为了进一步求证,我们做了如下操作:

1、取下刀片服务器,只安装一颗CPU和一条内存。在这种状态下服务器可以discovery通过。

2、安装两颗CPU和两条内存,此时故障现象依旧,还是无法通过。

3、将CPU1和CPU2对换,CPU2是单独下单的,CPU1是随刀片一起过来的,只安装CPU2和一条内存了,discovery过程可以通过。

4、将原有的一台B200 M3的内存全部拆下和现有内存互换,安装两颗CPU,discovery过程还是无法通过。

5、只在CPU2的槽位上安装一颗CPU和一条内存,仍然不行(后来得知,在只有一颗CPU的情况下,只能插在CPU1槽1上)

6、将刀片更换槽位,也不行……

7、Recover,也不行……

………………

试了种种仍然不行,初步判断问题可能是出在主板上,于是带着这个疑问向思科开了一个case,后来思科TAC工程师收集了一下日志,根据日志判断问题也可能出在主板上。最终帮我们做了一个RMA,重新发两块主板过来!

期待总是美好的,可那毕竟只是期待!

待RMA的两块主板到达后,我们把CPU、内存等部件插好后,插入刀箱,见鬼的事情再次出现了,discovery过程仍然是走到7%就不动了!两块都是这样!

感觉不符合常理,但是问题还是出现了!

我们将出现的问题汇报给了大BOSS,大BOSS也深感疑惑,不可能发来的都是坏的啊!于是元旦后的第一天大BOSS亲临现场。

大BOSS通过一翻查看,发现这两台刀片的boardcontroller的firmware没有显示版本显示,也就是看不出来是什么版本,会不会是因为这个导致的问题呢?于是通过SSH登录UCS Manager,进行了如下操作:

C6248A-A# scope chassis 2
C6248A-A /chassis # scope server 6
C6248A-A /chassis/server # scope boardcontroller
C6248A-A /chassis/server/boardcontroller #
activate firmware 14.0
Warning: When committed this command will reset the end-point
C6248A-A /chassis/server/boardcontroller # commit-buffer 

待刀片再次发现时竟然通过了那个7%,直至发现成功!至此,RMA过来的那两台刀片所出现的问题得以解决!

大BOSS出马,哇嘎嘎……(*^*)


两台刀片正常之后,我们在想另外两台是不是也是因为这个原因呢?于是我们再一翻折腾,把原来的一台刀片服务器再次插入刀箱,进行检查。然而事于愿违,最终不得不将故障刀片发走!

**********************************************************************************************

总结:

1、故障处理必须要细心,不能放过每一个环节。

2、不要用惯性思维对待每一个故障,猪是撞到树上死的,可是兔子不一定是撞到树上死 。我和同事在对待RMA的刀片上就犯了这个错误。

3、处理故障时要把事情缕顺了!一点点来,一步步走!


本文出自 “xunil” 博客,请务必保留此出处http://136464.blog.51cto.com/126464/1731742

你可能感兴趣的:(Discovery,故障,B200)