【重识云原生】第四章云网络4.3.9节——Graceful Restart(平滑重启)技术

   《重识云原生系列》专题索引:

  1. 第一章——不谋全局不足以谋一域
  2. 第二章计算第1节——计算虚拟化技术总述
  3. 第三章云存储第1节——分布式云存储总述
  4. 第四章云网络第一节——云网络技术发展简述
  5. 第四章云网络4.2节——相关基础知识准备
  6. 第四章云网络4.3节——重要网络协议
  7. 第四章云网络4.3.1节——路由技术简述
  8. 第四章云网络4.3.2节——VLAN技术
  9. 第四章云网络4.3.3节——RIP协议
  10. 第四章云网络4.3.4节——OSPF协议
  11. 第四章云网络4.3.5节——EIGRP协议
  12. 第四章云网络4.3.6节——IS-IS协议
  13. 第四章云网络4.3.7节——BGP协议
  14. 第四章云网络4.3.7.2节——BGP协议概述
  15. 第四章云网络4.3.7.3节——BGP协议实现原理
  16. 第四章云网络4.3.7.4节——高级特性
  17. 第四章云网络4.3.7.5节——实操
  18. 第四章云网络4.3.7.6节——MP-BGP协议
  19. 第四章云网络4.3.8节——策略路由
  20. 第四章云网络4.3.9节——Graceful Restart(平滑重启)技术

【重识云原生】第四章云网络4.3.9节——Graceful Restart(平滑重启)技术_第1张图片

 1 前言

        GR(Graceful Restart,平滑重启)是一种在主备切换或协议重启时保证转发业务不中断的机制。其核心在于:设备进行协议重启时,能够通知其周边设备,使到该设备的邻居关系和路由在一定时 间内保持稳定。在协议重启完毕后,周边设备协助其进行信息(包括支持GR的相关协议所维护的 各种拓扑、路由和会话信息)同步,在尽量短的时间内恢复到重启前的状态。在协议重启过程中不 会产生路由振荡,报文转发路径也没有任何改变,整个系统可以实现不间断运行。

        OSPF GR可以保证运行OSPF协议的路由器在进行主备切换或 OSPF协议重启时,转发业务正常进行。

1.1 产生背景

        一台路由器的OSPF协议重启之后,会发送 Hello报文以发现邻居,而邻居路由器因为之前已经和该路由器建立有邻居关系,因此收到该 Hello 报文之后就会把该路由器从邻居列表中删除,断开与该路由器的邻居关系,并通知其他路由器。当该路由器与邻居路由器重新建立OSPF邻居关系后, 会重新同步所有的路由信息数据,而周边路由器也需要重新进行路由计算,这样就会引起网络的路由振荡以及转发中断,对于一个大型网络,尤其是运营商网络,这些路由振荡和转发中断是不可容忍的。

        如何能使协议重启而不引起网络振荡和转发中断呢?由于分布式设备的控制与转发是分开的,主控 板负责整个设备的控制与管理,包括协议运行和路由计算,而接口板则负责数据转发。这样当发生 主备倒换或协议重启时,数据转发仍然可以不中断进行。同时,如果在重启期间周边设备能维持邻居关系不变并保持路由稳定,并且在设备重启后能协助设 备进行路由信息同步,在尽量短的时间内使得本设备的路由信息恢复到重启前的状态,那么就可以 保持网络拓扑稳定,不引起网络路由振荡。

        为了实现这个目的,OSPF 路由协议进行了扩展,即OSPF GR。通过 OSPF GR,可以避免网络 的路由振荡及转发中断。

1.2 技术优点

  • 保证协议重启或主备切换过程中转发业务不中断
  • 减少协议重启或主备切换时路由振荡对全网的影响
  • 减少单点故障,提高整个网络的可靠性

2 OSPF GR技术详细介绍

2.1 概念介绍

OSPF GR的基本术语:

  1. GR Restarter:发生协议重启事件且具有 GR能力的设备。
  2. GR Helper:和 GR Restarter具有邻居关系,协助完成 GR流程的设备。
  3. GR Session:OSPF邻居建立时进行关于 GR能力的协商,一般把 GR能力协商过程称为 GR Session。协商的内容包括双方是否都具备 GR能力等。一旦 GR能力协商通过,当协议重启 时就可以进入 GR流程。
  4. GR Time:GR时间,是GR Restarter和GR Helper协商建立一个会话所用的时间。当某GR路由器发现邻居路由器处于down状态时,将在该时间内仍保留其发出的拓扑或路由信息。

        说明:分布式设备可以充当 GR Restarter和 GR helper;而集中式设备只能充当 GR Helper,协助 GR Restarter完成 GR流程。

2.2 实现方式

        目前 H3C有两种方式实现 OSPF GR技术:

        一种是基于 IETF标准,Restarter通过向 Helper发送一种称为 Grace LSA(Link state advertisement,链路状态信息公告)的 9类 Opaque LSA来控制 GR的交互过程。

        另外一种是非 IETF标准,Restarter与 Helper之间是通过相互发送携带 LLS(Link local signaling,本地链路信令)与 OOB(Out-of-band LSDB Resynchronization,带外的链路状 态信息库重新同步)扩展信息的 OSPF报文来完成 GR的交互过程。

        说明:GR Restarter上只能配置 IETF标准与非 IETF标准其中的一种能力,两种方式是互斥的。

2.2.1 IETF标准OSPF GR实现机制

        对 OSPF协议做了如下扩展:增加一种 9类 Opaque LSA――Grace LSA,用以在 GR Restarter 重启时,通知周边邻居进入** GR Helper**流程。

Grace LSA

        Grace LSA格式如图 1所示。

【重识云原生】第四章云网络4.3.9节——Graceful Restart(平滑重启)技术_第2张图片

图1 Grace LSA格式

        其中,几个主要的 TLV 的含义如下:

  • Grace Period TLV:Type 取值为 1,长度为 4字节,表示邻居设备进入 GR Helper处理流程 的最长保持时间。如果超过这段时间 GR Restarter还没有完成 GR处理流程,则周边邻居不 再担任 GR Helper角色。该 TLV 是 Grace LSA必须携带的。
  • Graceful Restart Reason TLV:Type 取值为 2,长度为 1字节,告知邻居设备 GR Restarter 的重启原因。Value取值为0表示原因未知,取值为1表示软件重启,取值为2表示软件重新 加载(升级),取值为 3表示 GR Restarter进行主备倒换。Grace LSA中必须携带该 TLV。
  • IP Interface Address TLV:Type 取值为 3,长度为 4字节,用来告知发送 Grace LSA的接口 的 IP地址,在网络上需要用该 IP地址来唯一标识一台重启设备。

2.2.2 IETF标准 OSPF GR运行过程

        如图 2所示,假设 Router A和 Router B原来有稳定的OSPF邻居关系,并且 Router A使能了 GR 能力,此时 Router A重启,将按照以下的流程进行路由信息交互:

  1. Router A重启之后向 Router B发送 Grace LSA。
  2. Router B收到 Router A发出的 Grace LSA后,会维持与 Router A的邻居关系不变。
  3. Router A与 Router B进行 Hello报文与 DD(Database Description,链路状态信息库描述) 报文交互和 LSDB同步。由于 GR 过程中不能生成 LSA,所以在 LSDB同步过程中,如果 Router A从 Router B收到自己产生的 LSA,直接存储下来并置上 Stale标志。
  4. 完成 LSDB的同步之后,Router A发送 Grace LSA(Grace Period TLV的 Type值为 0)通 知 Router B结束 GR 流程。Router A进入正常 OSPF流程,然后 Router A重新生成 LSA, 并删除那些置了 Stale标志而又没有被重新生成的 LSA。
  5. Router A在恢复所有路由信息后重新进行路由计算,重新刷新 FIB表。

【重识云原生】第四章云网络4.3.9节——Graceful Restart(平滑重启)技术_第3张图片

图2 IETF标准 OSPF GR运行示意图

2.2.3 非IETF标准OSPF GR实现机制

        与IETF标准的OSPF GR相比,非IETF标准GR主要是通过下面两个能力扩展来支持OSPF GR:

  • Link-Local Signaling:OSPF本地链路通告扩展,用来标识当前路由器和其他路由器进行一 些可选信息的通信。
  • Out-of-band LSDB Resynchronization:带外的 LSDB重新同步,完成无邻接关系变化的 LSDB重新同步。

2.2.3.1 LLS能力扩展

        在OSPF的Hello报文和DD报文的尾部增加了LLS Data。同时对Hello报文和 DD报文的Option字段进行扩展,以标识是否携带LLS。扩展后的Option字段如图 3 所示,如果L位置1表示携带了LLS Data。

图3 Option字段

        经过扩展后的报文格式如图 4所示。

【重识云原生】第四章云网络4.3.9节——Graceful Restart(平滑重启)技术_第4张图片

图4 LLS扩展后的 OSPF 报文格式图

        LLS Data的具体的格式如图 5所示。

图5 LLS Data字段

        LLS Data中的 TLV 可以用于进行不同的 OSPF扩展。例如为支持 GR,使用了类型为 1的 TLV, 即 Extended Option TLV(EO TLV)。下面我们讲一下 EO TLV 里两个重要字段:

  1. LR字段:用以实现 OOB能力的协商,LR在 EO TLV 中的位置如

        图 6所示。如果当前路由器 具备 OOB能力,则在发送 Hello和 DD报文时将 LR(LSDB Resynchronization)进行置位;否则不对 LR进行置位。

图6 EO TLV LR位说明图

  1. RS字段:用以通知邻居当前路由器进入 GR流程,RS在 EO TLV 中的位置如图 7所示。当 路由器需要短暂离开网络时,可以通过将 Hello报文中的 RS(Restart Signal)置位来向周边 邻居通知自己需要进入 GR流程,这样周边邻居就会保持与此路由器的邻居关系不变;否则不 对 RS进行置位。

图7 EO TLV RS位说明图

2.2.3.2 OOB能力扩展

        当路由器通过 LLS 完成 OOB 能力协商,确认双方都具备 OOB 能力后,则表示可以在邻居关系和 网络拓扑稳定时进行LSDB同步,即进入OOB流程。这时需要在向邻居发送的DD报文中将Option 字段中的 R进行置位,R在 Option字段中的位置如图 8所示。

【重识云原生】第四章云网络4.3.9节——Graceful Restart(平滑重启)技术_第5张图片

图8 DD报文

2.2.4 非 IETF标准 OSPF GR运行过程

        如图 9所示,假设 Router A和 Router B原来有稳定的 OSPF邻居关系,并且 Router A使能了 GR 能力,此时 Router A重启,将按照以下的流程进行路由信息交互:

  1. Router A重启后向 Router B发送 LR和 RS都置位的 Hello报文,向 Router B通告自己只是 暂时断开马上就会恢复正常,并且自己具备 OOB能力;Router B收到Hello报文后,也会向Router A回复一个LR仍保持置位但是RS位已经清除的 Hello报文,向 Router A通告自己已经知道它是要短暂离开,并且自己也具备 OOB能力;
  2. Router A向 Router B发送 R置位的 DD报文,向 Router B发起 LSDB同步请求,在 LSDB 同步期间,Router B不会将 Router A从自己的邻居列表中删除,在自己生成的 Router LSA (Network LSA)中,与 Router A的邻居关系仍然为 Full。由于 GR 过程中不能生成 LSA, 所以在 LSDB同步过程中,如果 Router A从 Router B收到自己产生的 LSA,直接存储下来 并置上 Stale标志。
  3. 完成LSDB的同步之后,Router A结束GR流程,进入正常OSPF流程,然后Router A重新 生成 LSA,并删除那些置了 Stale标志而又没有被重新生成的 LSA。Router B在和 Router A 的邻居关系重新达到 Full状态后退出 GR流程,进入正常 OSPF流程。
  4. Router A在恢复所有路由信息后重新进行路由计算,重新刷新 FIB表。

【重识云原生】第四章云网络4.3.9节——Graceful Restart(平滑重启)技术_第6张图片

图9 非 IETR标准 GR 同步过程

2.3 典型组网应用

2.3.1 OSPF GR典型组网应用

        组网图:

【重识云原生】第四章云网络4.3.9节——Graceful Restart(平滑重启)技术_第7张图片

图10 OSPF GR配置组网图

组网需求

        Router A、Router B、Router C、Router D、Router E、Router F、Router G、Router H、 Router I、Router J、Router K、Router L运行 OSPF协议。

        Router A、Router B与骨干网相连,属于骨干节点。

        Router G、Router H、Router I、Router J、Router K、Router L是分支节点,通过核心节点 Router C、Router D、Router E与骨干节点相连,通过骨干节点连接到骨干网上。

        使用 GR保证网络中的骨干节点和核心节点在出现协议重启时的转发业务不中断,避免出现不 必要的路由振荡。

        骨干节点和核心节点作为 GR Restarter(同时缺省也作为 GR Helper),分支节点作为 GR Helper。这样当骨干节点发生主备切换或重启 OSPF进程时,核心节点可以作为 GR Helper 协助其进行 LSDB重同步,并且保持转发不中断;当核心节点发生主备切换或重启 OSPF进 程时,骨干节点和分支节点都可以作为 GR Helper协助其进行 LSDB重同步,并且保持转发不中断。

参考链接

GR技术介绍-ielab_ie-lab网络实验室ccie认证之家的博客-CSDN博客

GR技术介绍 - 百度文库

GR技术介绍-新华三集团-H3C

oracle tlv,OSPF GR(Graceful Restart,平滑重启)技术_Well Honey的博客-CSDN博客

平滑重启_百度百科

你可能感兴趣的:(云原生专栏,后台开发专栏,网络,http,云原生,路由,平滑重启)