新冠肺炎疫情爆发之后,嘉为公司在完成内部防控工作的部署同时,心系每一个客户,时刻关注疫情对各大企业的业务影响,并积极配合客户在防疫期间的相关运维工作要求。

以深圳某企业(以下简称SZ公司)为例,早在2月2日之前,政府对各企业复工延迟计划作出要求时,我们便在第一时间响应客户需求,明确将按照SZ公司新型冠状病毒防控工作方案的相关工作要求,全力配合做好系统运维远程支持工作直至疫情解除,确保SZ公司业务系统稳定运行。

SZ公司是嘉为集团合作最深配合最默契的客户之一,也是嘉为蓝鲸最早的深度践行客户之一,基于嘉为蓝鲸自动化运维平台,双方开展了大量实践和探索,取得了显著成果。那么在疫情影响下,嘉为蓝鲸是如何助力SZ公司IT运维的?


疫情对企业IT运维的影响

疫情影响下,所有企业IT运维不可避免地会受到各种影响,对于SZ公司可能会受到哪些方面的影响,简单从以下几个方面分析。


01 现场运维力量缺乏

为了防止疫情蔓延,该公司首先响应政府号召并宣布延迟复工,开放远程办公,以最小化的标准严格限制到场人员。因此,对于企业IT运维,现场运维力量的大幅减弱,导致类似系统健康性巡检、业务需求响应、变更执行和故障应急等现场工作的响应及时率和完成度受到了较大影响。


02 系统安全可控性难度加大

SZ公司在2019年采取了一系列措施,例如:建立信息安全通报中心、定期开展系统漏洞扫描及整改等,加强企业信息安全管理,降低被***的风险,确保企业不会因安全事件导致信息泄露和财产损失。然而,随着疫情爆发,受限于远程限制,漏洞扫描和整改等工作的开展难度和效率低下将对系统安全性产生一定影响。


03 业务宕机风险增大

疫情影响下开展远程办公,针对故障的各个处理环节(例如:故障响应、故障处理和硬件维护等)将出现或多或少的延迟,对于业务系统来说,无疑增加了业务长时间宕机的风险。


04 重点专项工作延迟风险高

疫情影响下,无法保障重点工作沟通的有效性和时效性,因此,涉及资源申请、变更审批和实施等项目工作,将无法有效开展,很可能导致各类重点工作的进度延迟,从而对核心业务形成至关重要的影响。


疫情下企业对IT运维的普遍需求

即便影响因素受制于客观条件较难短期克服,但是SZ公司数据中心仍然对于运维组提出了以下基本原则要求以保障业务的正常运行。


01 人员投入可以减少,但运维效率不能降低

如上所述,疫情影响下,现场运维人员投入的被动减少是必然的。那么,在远程运维背景下,保障运维效率最小程度的降低,甚至不降低,是企业对于IT运维的第一需求。


02 人员可以不在场,但系统安全必须始终在线

由信息安全的重要性所决定,防疫期间漏洞整改等工作必须保持较高的响应及时率和整改时效性。


03 运维可以远程,但故障响应必须及时

业务系统的稳定运维是企业正常运作的必要前提,特别是对于涉及民生资源的SZ公司,承担着重大的社会责任,因此,防疫期间对于系统故障的支持力度必须得到最大程度的保障。


04 复工可以延缓,但重点工作进度不能延迟

基于远程办公的背景,如何提升重点工作的沟通效率,保证项目资源申请、变更审批和实施等工作能够高效开展,是IT运维需要重点解决的问题。


疫情下企业IT运维的重点工作内容

运维班组根据数据中心的要求,通过对本阶段的必要工作梳理进行分类,并与嘉为支撑团队沟通相关工具和方法形成以下工作内容。


01 系统健康性巡检

利用SZ公司远程办公工具和嘉为蓝鲸平台远程开展每天的巡检工作,巡检范围涉及数据库、中间件、操作系统、服务器、存储和光纤交换机等多个核心领域和组件。


02 信息安全保障

根据SZ公司信息安全部门工作要求,借助嘉为蓝鲸平台远程开展漏洞管理工作,涉及漏洞的全过程管控,整改范围包括操作系统、数据库和中间件等多个专业。


03 系统故障处理

主要分为常见故障的远程预处理和重大故障的现场处理。常见故障包括磁盘空间不足、CPU或内存使用率过高、物理设备磁盘故障等,可在收到提前预警下,利用嘉为蓝鲸平台进行远程预处理;重大故障包括数据库故障、存储故障和物理设备宕机等,一般需要到现场进行处理。


04 重点业务需求处理

重点业务需求包括但不限于以下:

  • 业务架构扩展,需要新出库资源以支撑。

  • 业务数据激增,要求数据存储扩容。

  • 业务运维中常见的用户登录授权,密码重置等,需要后台操作。

  • 业务IT配置管理数据库信息维护等。


疫情下嘉为如何助力企业IT运维

根据以上工作范围的定义和梳理分类,嘉为蓝鲸服务团队响应要求,通过嘉为蓝鲸平台提供的一系列工具软件和自助化流程配置轻松实现了SZ公司的高效运维。


01 嘉为蓝鲸自动化巡检系统:提高系统健康性巡检效率

借助自动化巡检系统的每日定时巡检任务,每天只需要1名运维人员远程查看巡检结果汇总表,IDC设备及系统健康情况便一目了然,将巡检问题提交至系统,反馈给相关专业进行预处理即可。


各类巡检APP展示:

自定义巡检任务:

巡检结果汇总:


02 现场运维力量缺乏

通过嘉为蓝鲸漏洞全过程管理系统进行漏洞扫描,可以第一时间获取漏洞清单、整改对象和受影响的业务清单,再借助补丁管理平台,实现补丁一键修复,最后通过漏洞全过程管理平台进行漏洞复核,实现漏洞整改闭环,将漏洞整改的时间周期由以往的1~2周缩短至1~3天,极大提升整改时效性,使疫情下信息安全防护工作的远程支撑效率不减。


嘉为蓝鲸漏洞全过程管理系统:



嘉为蓝鲸补丁更新APP:



03 嘉为蓝鲸统一作业平台:高效处理系统故障

对于防疫期间的常见故障和变更,可通过嘉为蓝鲸作业平台批量执行脚本或分发文件等功能能进行预处理,无需登录任何服务器进行操作,提高系统故障处理效率的同时,也降低了人为误操作的几率,更为安全高效地保障系统的稳定运行。

批量执行脚本:

批量分发文件:


04 嘉为蓝鲸资源自动化交付、基础变更自动化工具:高效应对重点专项工作

重要业务资源自动化交付

防疫期间,针对重要业务资源出库需求,可通过嘉为蓝鲸资源自动化交付平台,实现虚拟机、中间件、数据库、备份和监控等一整套资源的自动化快速交付。

重要系统基础变更自动化处理

针对重要业务存储扩容需求和用户密码重置等需求,均可利用嘉为蓝鲸基础变更自动化平台实现将日常人工处理变更请求,由运维平台自动执行处理,并在处理完成后进行闭环反馈。



05 基础条件要求——CMDB建设

要想良好地实现以上4种自动化运维场景,不可缺少的是需要建设一套规划完善的CMDB。对于SZ公司,嘉为服务团队为该公司的CMDB做了详细规划和建设,针对业务IT配置管理数据库信息维护需求,建立配置管理数据库,对企业的IT资产进行统一管理,并联动嘉为蓝鲸其他功能模块,自动同步变更信息,为其他系统和用户提供可靠的数据源。


CMDB:

统一管理业务架构、主机、软硬件等资产配置。

配置管理门户:

IT资产报表统计,一目了然。


总结

SZ公司于2017年开始部署嘉为蓝鲸自动化运维平台,并陆续上线了资源自动化交付、CMDB、自动化巡检、补丁管理、安全基线管理、漏洞管控平台和存储监控等十几个应用和功能模块,极大地提升了IT数据中心的服务和运维效率,助力其自动化运维成熟度和管理体系持续处于行业领先地位。防疫期间,嘉为蓝鲸自动化运维平台有效为该客户提供运维能量,助力客户IT运维团队高效开展工作,实现远程安全运维。

对于广大企业而言,随着企业的快速发展,IT技术栈越来越多、IT团队规模越来越大、运维场景个性化进一步增强、运维安全和敏捷性等对企业内部运维能力提出了更高的技术要求。除此之外,面临本次重大疫情以及未来不可预测的重大影响因素,我们建议企业应提前考虑规划统一运维平台+自动化运维平台以提升自身运维效率和应对风险的能力。


作者:赵江彬

其他优质文章

Linux | 文件的时间属性

企业如何规划DevOps落地与演进?

ZooKeeper | 安装部署、应用场景、开发对接API

【银行运维】落地平台化管理,大步迈向银行4.0

弹性(Flex)布局的使用