很久没遇到值得分享的经验,今天遇到一个问题,处理过程很有意思,和大家一起分享一下。

        有一个客户部署华三的一套无线,采用控制器+瘦AP的方式。部署过程都是轻车熟路,配置全部完成,静等AP上线,这时经理说,单模光纤没了,控制器和核心之间都是单模光模块,问说用多模的跳线行不行,这个我也只是看过介绍说短距离用也可以,就说临时用吧,后面换掉就行。一切妥当,开始观察AP上线情况,这时候就发现很奇怪的情况了,上线很慢,特别慢,比起以前的经验慢的异常,当晚最慢的可能半个小时才上线成功,但是上线成功后,测试也没问题。当时怀疑是不是光纤的问题,丢包错报多了,检查接口也没异常,这事最后也就不了了之,毕竟最后还是都上线了。

        过了一周,客户说还有一个后来装的AP没上线,我判断是POE交换机往上接的汇聚没配置,上面的汇聚是原来的老交换机,肯定没有这次新规划的无线地址VLAN,到了现场配置完成后,看到AP的MAC获取到地址了,就开始等上线,左等右等都不行,PING地址又是通的。这时候又开始怀疑光纤是不是有问题导致的。在控制器打开DEBUG,偶尔看到交互报文,但是过段时间又看不到了,看到的时候又有点只收不发。中间又反复用了很多手段都没效果。

      最后,我登到AP上去,打开debug,看到AP在向一个地址发起报文,但这个地址肯定不是控制器的地址,这时候我灵光一闪,是不是这个网段里还有另一个控制器,AP跑去和那个控制器注册了,测了一下那个地址,还是通的,真有。假设真的是这个问题,那如何解决,控制器的地址,管理段这些都是规划好的,没法改了,这时就想到了一个属性 option 43,这个可以告诉AP,控制器的地址是多少。在DHCP中加上这个参数,问题马上解决。

      总结这次排错经历,由于客户的老网结构我们并不清楚,所以也不知道原来的网里就已经有控制器了,AP注册的时候发的报文是一个广播,一个段里的控制器都会收到,这就会产生问题了,而option 43就可以解决这个问题,当然,绝大部分情况下是用不到这个属性的。其实这次的经历也是又验证了我的一个经验总结,只要感觉到和平时不一样,就肯定有原因,即使这个不一样没有影响到最终的结果,但是对原因的深究却可以提升我们分析问题,解决问题的能力。

        不要放过任何一次,感觉不对劲。