各位,好
我们在常见的企业边缘的网络架构中经常会遇到高可用、堆叠、VRRP等双机部署情景,那我在前面介绍的一些案例当中,基本都是双机部署,高可用的企业组网形式,
所以,基础的配置也都在前面介绍了,但是却没有介绍高可用的状态下如何升级硬件的OS的情景,这里因为在上周完成了一次(山石网科-HA)无缝迁移,所以我们这里特意总结如下思路,
与各位分享,欢迎大家参阅指正。
厂商给出的升级解决方案书:【我这里也列出来下,大家可以参考下,毕竟我的处理思路和厂商不一致】
抵达客户现场前,首先确定客户使用设备目前的版本信息,本次升级的目的,并提前下载好需要升级的版本。抵达客户现场后,在升级前,仍需做以下准备工作。
1. Consle 登录两台防火墙,使用 show configuration 查看两台设备的当前配置,并备份设备配置。(同样可使用 WebUI 登录设备并进行配置备份)
2. 使用命令 show ha group 0 查看两台设备当前的主备关系,并关闭两台设备的HA 抢占
【Allen回复:实际更换中,除了HA抢占,还有需要关闭monitor】
3. 开启 TFTP,并将升级的版本放置 TFTP 文件夹。使用如下命令上传新 OS,并将原 OS 作为备用 OS,新上传的 OS 作为新 OS。
HillstoneSA_B# import image from tftp server 192.168.1.254
SG6000-M-2-5.0R3P12.bin
#########################################################
#########################################################
#########################################################
Verified OK
Remove existing images and save? [y]/n: y
Saving ................................................................
Checking saved firmware .............................. OK
Set SG6000-M-2-5.0R3P12.bin as active boot image
【Allen回复:现在都web上传了,谁还用tftp,这一步就差评,不够体谅用户技术水平】
为备机进行升级
1. 拔掉备机业务线及 HA 心跳线,使备机下线关闭两台设备的 HA 需使用命令 no HA cluster1;
2. 重启备机,升级备机固件版本;
3. 待备机升级成功后,使用命令 show version 查看设备当前版本,并使用 show configuration 对比备机原配置和当前配置;
【Allen回复:这一步没有建议使用什么工具对比,难道要肉眼看?没考虑用户】
4. 拔掉主机业务线及 HA 心跳线,让主机下线;
【Allen回复:这里描述太粗,因为拔掉和备机上线是一起的操作】
5. 连接备机业务线及 HA 心跳线,此时业务流量走备机;
【Allen回复:这里主机的业务线和HA心跳线需要接入吗?如果接入,为什么不在升级之后再连接主设备】
6. 观察备机工作状态,确保业务可以在备机上正常运行。
【Allen回复:这一步完全可以在切换流量后一起确认,多余】
为主机进行升级
1. 将 OS 上传至主机,并设置为当前 OS,对主设备进行重启;
2. 待主机升级成功后,使用 show version 查看设备当前版本,并使用命令 show
configuration 对比设备的原配置和当前配置;
3. 使用命令 ha group cluster1 在两台设备上开启 HA;
4. 连接主机业务线和 HA 心跳线;
5. 待 HA 成功协商后,使用命令 preemt 为主机配置抢占,业务流量重新恢复到主机;
6. 观察主机业务状态,确保业务可以在主机上正常运行。
【Allen回复:为备/主机进行升级、这俩个步骤在描述中,用户会默认认为先进行备机,但是在整个实施过程当中,这两步是有很多需要同时进行的,这里描述太粗,差评】
其他升级注意事项:
最好在抵达客户现场前提起拿到客户设备的当前版本和配置,可以在公司使用测试设备对升级方案进行验证。
【Allen回复:客户怎么有可能有同样的设备,作为原厂应该提供升级测试报告+升级计划建议书,而不是仅仅提供升级计划建议书】
2. 由于设备切换间会有短暂的断网,需与客户提前沟通,确认具体的升级时间计划。
【Allen回复:我个人在整个升级过程当中,客户业务完全没有任何中断,甚至丢包也之多只有3个,这很明显发现,这份建议书在技术上是有很大瑕疵的】
个人梳理后的操作步骤:(请现场同事同时记录所有操作细节和完成时间)
PS:为什么要做这一步,因为我们是一家专业的技术服务公司,所以我们队每一个步骤都需要记录,以供我们在后期复盘与思考。这样会有更多的总结出来。所以我们特意记录了每一个节点的时间。红字为我个人记录时间。
1.将主备防火墙配置文件web导出,本地备份(共计两份)-可提前操作将主(备)设备抢占功能关闭、HA检测关闭,当前配置:主防火墙有抢占、主备均挂在了track
总耗时:1分51秒
2.本地web执行上传OS,主备同时进行,升级---【该步骤可提前给备防火墙实施】,并点击暂不重启按钮。
总耗时:3分45秒
3.console接入备机,将备机设备剥离安能网络环境,业务线、心跳线、内网线路全部拔掉,并将备机HA群集ID,no掉。使其不运行HA协议,单机跑
总耗时:1分钟内
4.本地console重启备机,使OS版本为前面上传的最新版本。
总耗时:4分钟
5.备机OS固件升级完成后,console:show version查看运行的版本,并使用show configuration比如当前配置文件。【notepad++或excel函数比较观察】
总耗时:2分钟
6.备机升级OS后配置文件确认无误后,并确认没有运行HA协议后进行流量切换的动作-预计可能会存在中断1分钟内
总耗时:1分钟
主业务丢包:小于4个(用户完全无感知)
7.在步骤6切换过程中,同时进行console接入主防火墙将主防火墙剥离安能网路环境,业务线、心跳线、内网线路全部拔掉。完成原备机流量的切换,所有线路(业务、心跳(down状态)、内网),使流量切换至备防火墙。
总耗时:1分钟
8.将备机的HA协议起来,即:目前正在跑流量的设备,切记这里不要挂HA的检测
总耗时:15秒
9.确认流量切换完成后,进行主防火墙重启,使OS为前面上传的最新版本。
总耗时:3分13秒
10.比对主防火墙配置文件,查看版本,notepad++、excel对比确认
总耗时:2分钟
11.将主防火墙和备防火墙的HA心跳线互联,确认HA状态协议是否正常:show ha group 0---成功时【此时协商日志翻动】,并确认无抢占
总耗时:18秒
12.console接入主防火墙,接入主防火墙业务、内网线路。确认HA状态,并观察业务网络是否受影响,详细观察并测试主备防火墙公网虚拟IP、管理IP(BGP、CTC),是否正常Ping通,若业务存在影响即刻“拔掉”主防火墙所有线路。
总耗时:1分钟
业务观察时间:2分钟
13.通知客户团队,协同确认所有监控是否已经正常恢复。
总耗时:1分钟
客户团队确认业务耗时:15分钟
14.console接入主防火墙,配置HA抢占功能。还原升级前主备角色。
语法:show ha group 0 先确认ha状态
Hillstone-A(config)# ha group 0
Hillstone-A(config-ha-group)# preempt
总耗时:35秒
15.模拟设备故障,测试高可用角色热切换。观察业务地址丢包情况并记录。
总耗时:15秒
丢包情况:丢包1个(接受范围内)
16*. 在维护窗口60分钟中,若在40分钟内依据升级流程未完成任务,执行回退工作。
IDC机房现场同事实际记录时间为:
11:45 开始执行操作
11:48 备防火墙固件上传成功
12:00 拔掉所有备防火墙网线,并重启备防火墙,确认备防火墙固件版本升级成功
12:07 配置比对完成,准备做流量切换操作
12:09 打电话给用户目前下一步action可能会中断业务,确认是否可以接受操作
PS:这一步是存在疑问的,因为维护窗口已经确认,那期间所有操作是已经被授权的
12:11 用户告知30分之后方可操作
12:30 确认操作并执行切换,并同时将主防火墙网线全部拔掉
12:31 观察生产业务情况
12:32 确认业务正常,仅丢3个包
12:34 升级主防火墙的固件OS
12:36 将备防火墙的HA协议启用
12:38 确认固件升级完毕,重启主防火墙,使其固件版本升级成功
12:40 开始着手比对升级前后的配置文件
12:45 主防火墙配置比对结束
12:47 连接主防火墙和备防火墙HA心跳线路,并使确认HA协议运行正常
12:51 观察HA双机配置文件
12:53 与用户沟通是否可以进行演练主备切换
12:59 模拟故障切换,切换期间业务IP丢包1个
13:01 确认此次升级计划完成
PS:因中间客户告知30分钟之后才可以执行,故回退计划时间顺延20分也就是13点,我们在此时间内已确认升级计划结束。
综上,就是我在给山石网科双机升级时候的整体思路,并在真实环境中得到了充分的验证,确实准备充足后,实施的过程不会出现任何差错,别非常顺利的完成了升级。关键是客户完全没有任何感知,这个是此次案例中,我作为割接的“主刀”工程师的最自豪的地方。
所以这里,再次唠叨一句,大家不要太关注技术实现,适当的注意思路还有文档的撰写。
—————来自一家二级运营商的网工分享,勤奋、努力、专注,除了这些没别的秘诀!!