F5 LTM1500诡异的硬盘故障(连载一)

架构描述:两台 F5 LTM1500通过active/standby模式转发外部的请求,IP地址分别为***.**.*.21***.**.*.22,虚拟成一个虚地址***.**.*.20,心跳地址是1.1.1.11.1.1.2
 

故障描述:两台机器都可以PING通。处于STANDBY状态的LTM可以通过浏览器正常登录,但处于ACTIVELTM却无法通过浏览器登陆,导致服务器负载均衡状态无法查看,更有甚者通过SSH连接CONSOLE命令行也无法登陆(提示Connection refused),通过两台机器的心跳地址可以PING通,但还是无法用SSH建立连接(同样提示Connection refused),可诡异的是LTM应用分发居然正常。由于ACTIVE的主机无法登陆,这种情况下相当于服务器负载均衡失控,更要命的是无法完成ACTIVESTANDBY的切换,因为Force To Standby按钮只有在ACTIVE的机器上才有。中午趁午休时间赶往IDC,但考虑到直接断点的风险决定先将就运行,同时准备一个极端的方案(在该F5出现问题时,考虑通过交换机屏蔽ACTIVE的机器进行强行切换)

 
 

通过内部心跳地址SSH如下:

Last login: Thu Sep 27 12:49:27 2012 from ***.**.3.5
[root@ltm01:Active] config # ping 1.1.1.1
PING 1.1.1.1 (1.1.1.1) 56(84) bytes of data.
64 bytes from 1.1.1.1: icmp_seq=0 ttl=64 time=0.048 ms
64 bytes from 1.1.1.1: icmp_seq=1 ttl=64 time=0.042 ms
 

--- 1.1.1.1 ping statistics ---

 
2 packets transmitted, 2 received, 0% packet loss, time 1012ms
rtt min/avg/max/mdev = 0.042/0.045/0.048/0.003 ms, pipe 2
[root@ltm01:Active] config # ping 1.1.1.2
PING 1.1.1.2 (1.1.1.2) 56(84) bytes of data.
64 bytes from 1.1.1.2: icmp_seq=0 ttl=255 time=0.595 ms
64 bytes from 1.1.1.2: icmp_seq=1 ttl=255 time=1.38 ms
64 bytes from 1.1.1.2: icmp_seq=2 ttl=255 time=1.23 ms
[1]+  Stopped                 ping 1.1.1.2
[root@ltm01:Active] config # ssh 1.1.1.2
ssh: connect to host 1.1.1.2 port 22: Connection refused
 

故障处理:好景不长,下午1500业务高峰发现静态页面出现乱码的故障,考虑APACHE异常,对两APACHE节点进行重启,居然页面无法访问。最后采用上述准备的极端方案,在应用交换机上对ACTIVE状态的F5设备进行屏蔽,然后就是祈祷式的等待,可喜的是数秒钟后F5成功进行了切换,业务完全恢复正常。

 

你可能感兴趣的:(F5,故障,1500)