我们备份网由两台5K组成,5501和5502,由于进出风向问题,需要将两台设备方向换一下,因此需要将设备的线全部拔掉然后再重新全部插上。
我们先进行了5502的掉头工作,整个工作非常顺利并没有任何异常。但是在进行5501掉头工作时候,出现了两台N5K接N2K的口全部down掉的情况,导致下面的所有N2K全部offline,整个备份网络全部中断。
vpc有个机制是:当peer link中断而keepalive link没有中断时,两台设备之前的状态同步消息中断,将可能导致两台peer都为primary状态,即active/active状态,为了避免这一问题,当peer link故障后,keepalive link开始工作,当secondary设备通过keepalive link判断出primary设备处于up状态,secondary设备会将自己的VPC相关端口挂起,停止转发VPC流量。
由于我们5501是vpc domain的主,5502是vpc domain的备,所以我们变更5502的时候没有任何异常,但是当开始变更5501时,我们相继的拔掉了5501下联link以及peerlink,但是却一直没有拔掉keepalive link,所以导致5502上的所有下联口也进入blocking状态,而此时5501的下联link全部被拔掉,导致两台N5K的下联link全部中断,即所有N2K全部offline。
正常情况下两台汇聚设备从vpc peer角度看是一台primary,一台Secondary,这个primary、Secondary的角色是用于同步peer状态及配置一致性检查。而从STP角度看也是一台是root,一台是Secondary,这个是确定生成树的。HSRP角度看也是一台active,一台standby,active负责回应host arp查询。这三种角度不是重叠的,可以由不能的设备承担主的角色,但是建议为了管理维护方便,都active在一台设备上。虽然从以上三个角度看两台设备是有主备之分的,但是实际流量转发是双A的,这是vPC的机制决定的。以下是机制常见的link中断场景:
正常情况下转发是双A的,一条下联线路中断,所有的流量都通过另一条线路进行转发。
负载分担到VPC Primary的流量会通过peer-link发往VPC Secondary设备,再发往上联链路。
1)通过keepalive-link检查对端active;
2)VPC Secondary关闭所有的VPC member port和VPC Vlan SVI;
3)流量通过VPC Primary发送;
4)Peer-link恢复后,被shutdown的端口和SVI会自动恢复;
Peer-link仍正常工作,流量正常转发,不会受到任何影响。
1)VPC Secondary关闭所有VPC member port和VPCvlan SVI;
2)peer-link和keepalive均恢复之后,被关闭的端口自动恢复。
1)两台设备处于双A状态(vpc peer的角度);
2)两个VPC peer均会发送BPDU,各自为根;
3)原来的流量可正常转发;
1、先将整机关机,检查fex状态正常后,再拔线;
2、将线全部插上后,确保线没有插错后,在开机。
(在中断掉peer link后,切勿再去动主)
1)Peer Link是一个标准的802.1q trunk链路,承载VPC VLAN,也可以承载非VPC VLAN(不推荐);
2)承载用于同步peer状态及配置一致性检查的CFS(Cisco Fabric Service)消息;
3)承载来自于VPC对等体的泛洪流量;
4)承载STP BPDUs、HSRP Hellos和IGMP Updates等;
5)在peer link level进行基于数据层面的防环,防环机制由硬件决定,不需要软件配置。
1)在VPC Peer设备间传输keepalive心跳消息;
2)在系统启动后,在形成vpc domain之前,保证2台vpc peer设备是up的;
3)在peer link失效后检测VPC是否active/active;peer link无故障时,keepalive link无作用。