各位,好


我们在常见的企业边缘的网络架构中经常会遇到高可用、堆叠、VRRP等双机部署情景,那我在前面介绍的一些案例当中,基本都是双机部署,高可用的企业组网形式,

所以,基础的配置也都在前面介绍了,但是却没有介绍高可用的状态下如何升级硬件的OS的情景,这里因为在上周完成了一次(山石网科-HA)无缝迁移,所以我们这里特意总结如下思路,

与各位分享,欢迎大家参阅指正。


厂商给出的升级解决方案书:【我这里也列出来下,大家可以参考下,毕竟我的处理思路和厂商不一致】

抵达客户现场前,首先确定客户使用设备目前的版本信息,本次升级的目的,并提前下载好需要升级的版本。抵达客户现场后,在升级前,仍需做以下准备工作。

1.  Consle 登录两台防火墙,使用 show configuration 查看两台设备的当前配置,并备份设备配置。(同样可使用 WebUI 登录设备并进行配置备份)

2.  使用命令 show ha group 0 查看两台设备当前的主备关系,并关闭两台设备的HA 抢占

【Allen回复:实际更换中,除了HA抢占,还有需要关闭monitor】

3.  开启 TFTP,并将升级的版本放置 TFTP 文件夹。使用如下命令上传新 OS,并将原 OS 作为备用 OS,新上传的 OS 作为新 OS。

HillstoneSA_B# import  image  from  tftp  server  192.168.1.254

SG6000-M-2-5.0R3P12.bin

#########################################################

#########################################################

#########################################################

Verified OK

Remove existing images and save? [y]/n: y

Saving ................................................................

Checking saved firmware .............................. OK

Set SG6000-M-2-5.0R3P12.bin as active boot image

【Allen回复:现在都web上传了,谁还用tftp,这一步就差评,不够体谅用户技术水平】


为备机进行升级

1. 拔掉备机业务线及 HA 心跳线,使备机下线关闭两台设备的 HA 需使用命令 no HA cluster1;

2. 重启备机,升级备机固件版本;

3. 待备机升级成功后,使用命令 show version 查看设备当前版本,并使用 show configuration 对比备机原配置和当前配置;

【Allen回复:这一步没有建议使用什么工具对比,难道要肉眼看?没考虑用户】

4. 拔掉主机业务线及 HA 心跳线,让主机下线;

【Allen回复:这里描述太粗,因为拔掉和备机上线是一起的操作】

5. 连接备机业务线及 HA 心跳线,此时业务流量走备机;

【Allen回复:这里主机的业务线和HA心跳线需要接入吗?如果接入,为什么不在升级之后再连接主设备】

6. 观察备机工作状态,确保业务可以在备机上正常运行。

【Allen回复:这一步完全可以在切换流量后一起确认,多余】


为主机进行升级

1. 将 OS 上传至主机,并设置为当前 OS,对主设备进行重启;

2. 待主机升级成功后,使用 show version 查看设备当前版本,并使用命令 show

configuration 对比设备的原配置和当前配置;

3. 使用命令 ha group cluster1 在两台设备上开启 HA;

4. 连接主机业务线和 HA 心跳线;

5. 待 HA 成功协商后,使用命令 preemt 为主机配置抢占,业务流量重新恢复到主机;

6. 观察主机业务状态,确保业务可以在主机上正常运行。

【Allen回复:为备/主机进行升级、这俩个步骤在描述中,用户会默认认为先进行备机,但是在整个实施过程当中,这两步是有很多需要同时进行的,这里描述太粗,差评】


其他升级注意事项:

  1.  最好在抵达客户现场前提起拿到客户设备的当前版本和配置,可以在公司使用测试设备对升级方案进行验证。

【Allen回复:客户怎么有可能有同样的设备,作为原厂应该提供升级测试报告+升级计划建议书,而不是仅仅提供升级计划建议书】

2.  由于设备切换间会有短暂的断网,需与客户提前沟通,确认具体的升级时间计划。

【Allen回复:我个人在整个升级过程当中,客户业务完全没有任何中断,甚至丢包也之多只有3个,这很明显发现,这份建议书在技术上是有很大瑕疵的】




个人梳理后的操作步骤:(请现场同事同时记录所有操作细节和完成时间)

PS:为什么要做这一步,因为我们是一家专业的技术服务公司,所以我们队每一个步骤都需要记录,以供我们在后期复盘与思考。这样会有更多的总结出来。所以我们特意记录了每一个节点的时间。红字为我个人记录时间。


1.将主备防火墙配置文件web导出,本地备份(共计两份)-可提前操作将主(备)设备抢占功能关闭、HA检测关闭,当前配置:主防火墙有抢占、主备均挂在了track

总耗时:1分51秒

              

2.本地web执行上传OS,主备同时进行,升级---【该步骤可提前给备防火墙实施】,并点击暂不重启按钮。

总耗时:3分45秒


3.console接入备机,将备机设备剥离安能网络环境,业务线、心跳线、内网线路全部拔掉,并将备机HA群集ID,no掉。使其不运行HA协议,单机跑

总耗时:1分钟内


4.本地console重启备机,使OS版本为前面上传的最新版本。

总耗时:4分钟


5.备机OS固件升级完成后,console:show version查看运行的版本,并使用show configuration比如当前配置文件。【notepad++或excel函数比较观察】

总耗时:2分钟


6.备机升级OS后配置文件确认无误后,并确认没有运行HA协议后进行流量切换的动作-预计可能会存在中断1分钟内

总耗时:1分钟

主业务丢包:小于4个(用户完全无感知)


7.在步骤6切换过程中,同时进行console接入主防火墙将主防火墙剥离安能网路环境,业务线、心跳线、内网线路全部拔掉。完成原备机流量的切换,所有线路(业务、心跳(down状态)、内网),使流量切换至备防火墙。

总耗时:1分钟


8.将备机的HA协议起来,即:目前正在跑流量的设备,切记这里不要挂HA的检测

总耗时:15秒


9.确认流量切换完成后,进行主防火墙重启,使OS为前面上传的最新版本。

总耗时:3分13秒


10.比对主防火墙配置文件,查看版本,notepad++、excel对比确认

总耗时:2分钟


11.将主防火墙和备防火墙的HA心跳线互联,确认HA状态协议是否正常:show ha group 0---成功时【此时协商日志翻动】,并确认无抢占

总耗时:18秒


12.console接入主防火墙,接入主防火墙业务、内网线路。确认HA状态,并观察业务网络是否受影响,详细观察并测试主备防火墙公网虚拟IP、管理IP(BGP、CTC),是否正常Ping通,若业务存在影响即刻“拔掉”主防火墙所有线路。

总耗时:1分钟

业务观察时间:2分钟


13.通知客户团队,协同确认所有监控是否已经正常恢复。

总耗时:1分钟

客户团队确认业务耗时:15分钟


14.console接入主防火墙,配置HA抢占功能。还原升级前主备角色。

语法:show ha group 0 先确认ha状态

Hillstone-A(config)# ha group 0

Hillstone-A(config-ha-group)# preempt

总耗时:35秒


15.模拟设备故障,测试高可用角色热切换。观察业务地址丢包情况并记录。

总耗时:15秒

丢包情况:丢包1个(接受范围内)


16*. 在维护窗口60分钟中,若在40分钟内依据升级流程未完成任务,执行回退工作。


IDC机房现场同事实际记录时间为:

11:45 开始执行操作

11:48 备防火墙固件上传成功

12:00 拔掉所有备防火墙网线,并重启备防火墙,确认备防火墙固件版本升级成功

12:07 配置比对完成,准备做流量切换操作

12:09 打电话给用户目前下一步action可能会中断业务,确认是否可以接受操作

PS:这一步是存在疑问的,因为维护窗口已经确认,那期间所有操作是已经被授权的

12:11 用户告知30分之后方可操作

12:30 确认操作并执行切换,并同时将主防火墙网线全部拔掉

12:31 观察生产业务情况

12:32 确认业务正常,仅丢3个包

12:34 升级主防火墙的固件OS

12:36 将备防火墙的HA协议启用

12:38 确认固件升级完毕,重启主防火墙,使其固件版本升级成功

12:40 开始着手比对升级前后的配置文件

12:45 主防火墙配置比对结束

12:47 连接主防火墙和备防火墙HA心跳线路,并使确认HA协议运行正常

12:51 观察HA双机配置文件

12:53 与用户沟通是否可以进行演练主备切换

12:59 模拟故障切换,切换期间业务IP丢包1个

13:01 确认此次升级计划完成

PS:因中间客户告知30分钟之后才可以执行,故回退计划时间顺延20分也就是13点,我们在此时间内已确认升级计划结束。



综上,就是我在给山石网科双机升级时候的整体思路,并在真实环境中得到了充分的验证,确实准备充足后,实施的过程不会出现任何差错,别非常顺利的完成了升级。关键是客户完全没有任何感知,这个是此次案例中,我作为割接的“主刀”工程师的最自豪的地方。


所以这里,再次唠叨一句,大家不要太关注技术实现,适当的注意思路还有文档的撰写。

                  —————来自一家二级运营商的网工分享,勤奋、努力、专注,除了这些没别的秘诀!!