关于vPC的link故障以及最佳实践

一、故障背景:

      我们备份网由两台5K组成,5501和5502,由于进出风向问题,需要将两台设备方向换一下,因此需要将设备的线全部拔掉然后再重新全部插上。

二、故障现象:

      我们先进行了5502的掉头工作,整个工作非常顺利并没有任何异常。但是在进行5501掉头工作时候,出现了两台N5K接N2K的口全部down掉的情况,导致下面的所有N2K全部offline,整个备份网络全部中断。

三、故障原因:

        vpc有个机制是:当peer link中断而keepalive link没有中断时,两台设备之前的状态同步消息中断,将可能导致两台peer都为primary状态,即active/active状态,为了避免这一问题,当peer link故障后,keepalive link开始工作,当secondary设备通过keepalive link判断出primary设备处于up状态,secondary设备会将自己的VPC相关端口挂起,停止转发VPC流量。

         由于我们5501是vpc domain的主,5502是vpc domain的备,所以我们变更5502的时候没有任何异常,但是当开始变更5501时,我们相继的拔掉了5501下联link以及peerlink,但是却一直没有拔掉keepalive link,所以导致5502上的所有下联口也进入blocking状态,而此时5501的下联link全部被拔掉,导致两台N5K的下联link全部中断,即所有N2K全部offline。

四、关于nexus link中断的常见场景

       正常情况下两台汇聚设备从vpc peer角度看是一台primary,一台Secondary,这个primary、Secondary的角色是用于同步peer状态及配置一致性检查。而从STP角度看也是一台是root,一台是Secondary,这个是确定生成树的。HSRP角度看也是一台active,一台standby,active负责回应host arp查询。这三种角度不是重叠的,可以由不能的设备承担主的角色,但是建议为了管理维护方便,都active在一台设备上。虽然从以上三个角度看两台设备是有主备之分的,但是实际流量转发是双A的,这是vPC的机制决定的。以下是机制常见的link中断场景:

1、下联接入交换机link down

正常情况下转发是双A的,一条下联线路中断,所有的流量都通过另一条线路进行转发。

2、上联三层链路故障

负载分担到VPC Primary的流量会通过peer-link发往VPC Secondary设备,再发往上联链路。

3、peer-link故障

1)通过keepalive-link检查对端active;

2)VPC Secondary关闭所有的VPC member port和VPC Vlan SVI;

3)流量通过VPC Primary发送;

4)Peer-link恢复后,被shutdown的端口和SVI会自动恢复;

4、Keepalive-link故障

Peer-link仍正常工作,流量正常转发,不会受到任何影响。

5、Peer-link先断,keepalive后断

1)VPC Secondary关闭所有VPC member port和VPCvlan SVI;

2)peer-link和keepalive均恢复之后,被关闭的端口自动恢复

6、Keepalive先断,peer-link后断

1)两台设备处于双A状态(vpc peer的角度);

2)两个VPC peer均会发送BPDU,各自为根;

3)原来的流量可正常转发;

五、此类问题的最佳实践:

1、先将整机关机,检查fex状态正常后,再拔线;

2、将线全部插上后,确保线没有插错后,在开机。

(在中断掉peer link后,切勿再去动主)

六、补充说明:

1、Peer Link作用:

1)Peer Link是一个标准的802.1q trunk链路,承载VPC VLAN,也可以承载非VPC VLAN(不推荐);

2)承载用于同步peer状态及配置一致性检查的CFS(Cisco Fabric Service)消息;

3)承载来自于VPC对等体的泛洪流量;

4)承载STP BPDUs、HSRP Hellos和IGMP Updates等;

5)在peer link level进行基于数据层面的防环,防环机制由硬件决定,不需要软件配置。

2、Peer-Keepalive Link作用

1)在VPC Peer设备间传输keepalive心跳消息;

2)在系统启动后,在形成vpc domain之前,保证2台vpc peer设备是up的;

3)在peer link失效后检测VPC是否active/active;peer link无故障时,keepalive link无作用。

你可能感兴趣的:(网络技术)