随着互联网与信息技术的快速发展,以及银行、证券、保险等企业数字化转型逐渐深入,系统规模以及运维相关的数据量和指标量成倍增长,传统的运维方式已经逐渐适应不了当下的运维环境和需求,IT运维面临的是海量、高速、多源多模态、高价值但信噪比低的数据,智能运维是大势所趋。近年来,国家层面接连出台了《“十四五”规划》《“十四五”数字经济发展规划的通知》等多项政策助力数字经济发展。同时,在银行、券商、保险等金融领域,陆续出台了一系列文件政策,表明在未来一段时间内,数智化转型将是金融行业高质量发展的重要基础和重点方向,《必示说》第五期,我们收集并整理了一些引导金融行业智能运维发展的政策文件,希望可以对金融行业IT运维从业人员提供便利。
《证券公司网络和信息安全三年提升计划(2023-2025)》由中国证券业协会组织起草的,并于1月6日开始向券商征求意见。《计划》提出建立科学合理的科技投入机制,加大科技资金投入,并鼓励有条件的公司2023-2025三个年度信息科技平均投入金额不少于上述三个年度平均净利润的8%或平均营业收入的6%。
《计划》在IT运维领域提出了“夯实系统运行保障能力”的主要任务,具体从运维领域的信息系统上下线管理、信息系统变更风险管控、系统故障发现能力提升、事件预警及处置效率提高、应急相应管理机制、容量与性能管理、重要信息系统备份能力七个方面给予了指导,相关内容如下:
1、加强信息系统上下线管理。
组织对重要信息系统上线的业务流程合规性、权限设置清晰度、对其它业务的影响、测试遗留问题对系统上线后的影响等方面进行全面评估。对重要信息系统的备份能力要求、信息安全防护措施、测试报告、验收报告、风险评估报告、应急预案、系统运维非功能需求以及上线方案等运维方面进行全面评估。在系统上线时密切关注业务运行情况,做好业务保障工作。运用技术手段开展重要信息系统下线的技术和业务影响评估,制定完整的系统停用和数据迁移保管方案,并组织评审及进行系统停用后的安全检查。
2、全面管控信息系统变更风险。
加强信息系统变更风险的管控,采取合适的技术手段,准确识别系统变更的关联关系,充分评估变更影响,提升变更风险评估全面性。提升运维自动化能力,积极运用持续发布、容器以及相关的运维自动化技术,实现重要信息系统变更的标准化、自动化和平台化,有效控制生产环境的变更操作权限,降低人员变更操作风险。重要信息系统组件的自动化发布比率不低于 40%,发布失败后具备版本的快速回退能力。持续完善变更管理机制,制定变更实施方案、变更影响分析、应急回退方案、业务验证等重要环节的落地要求,通过工具平台予以固化,并引入变更质量度量体系,完善系统变更前后的质量评估,对测试过程、变更过程进行有效评价和持续优化。
3、持续提升信息系统故障发现能力。
建立全面覆盖业务、应用、底层基础架构和基础设施的信息系统运行监测体系,并持续完善,不断提升运行监控的覆盖度。应建设统一的告警平台,与多种专业化监控工具实现联动,形成一体化运维监控平台,并建立告警的统一汇聚、分派通知和处置流程体系,持续开展告警的分析运营,提升监控告警的全面性、准确性、及时性。鼓励有条件的证券公司积极开展运维大数据和智能化运维工具平台建设,引入指标异常检测、日志异常检测、告警收敛、全链路调用追踪、根因分析等监控和智能故障发现和定位手段,不断提升信息系统的故障预防和故障发现能力。
4、全面提高事件预警及处置效率。
建立一二三线的专业化团队协同分工机制,明确岗位分工,强化岗位职责。持续完善事件管理制度,规范事件的处置流程,形成覆盖故障的预警、报告、处置、复盘等完整的闭环管理。不断完善故障应急预案,建立告警故障处置知识管理机制。鼓励有条件的证券公司建设和提升应急处置预案的自动化能力,提高故障研判和快速处置效率,提升故障自愈能力。积极运用运维自动化、混沌工程等技术手段,开展预案管理平台建设,对重要信息系统的应急处置预案进行线上化管理,实现应急处置预案的标准化和自动化。同时,通过加强日常演练,建设并持续更新应急预案场景库,不断提升预案场景的覆盖度和自动化处置比率。
5、健全组织级应急响应管理机制 。
建立健全自上而下、协同联动、高效有力的应急管理和舆情管理机制,提高应急管理和舆情管理水平,实现信息运行的实时舆情监控,并根据应急组织架构,压实各部门应急处置责任。加强应急决策、授权、舆情应对和技术应对能力,建立快速响应机制,提升应急的组织、调度协调能力。鼓励有条件的证券公司建设平台化的信息系统故障指挥与协作系统,将应急响应处置流程和预案场景落地至平台,快速自动建立合适的应急联络沟通渠道,应急预案和应急处置过程全面线上化、可视化,提高故障的应急协同处置效率。
6、做好信息系统容量与性能管理。
结合信息科技战略发展规划及现有资源,建设信息系统容量评估机制,做好容量规划,定期组织对信息容量进行评估。持续开展重要信息系统容量与性能测试和评估,运用全链路性能压测、数据建模、生产容量水位观测等多种方式,建立容量基线,确保重要信息系统容量满足业务需要。充分利用运维大数据、人工智能等技术手段,持续采集信息系统的运行数据,建立科学、可预测的信息系统容量模型,有效支持信息系统容量的弹性管理,为系统运行的持续降本增效提供有效的数据支撑,提升基础设施资源的整体利用率。
7、完善重要信息系统备份能力。
制定信息系统备份管理策略,建立数据防丢、防删的权限管控机制和技术手段,提升重要信息系统的备份管控能力建设。鼓励有条件的证券公司开展数据备份服务平台化建设,实现备份数据全生命周期的标准化、自动化和线上化管理,优化备份有效性的验证手段,实现系统数据和应用备份、恢复和验证全过程的平台化、数字化和可视化管理。
《金融科技发展规划(2022-2025)》是中国人民银行编制的第二轮金融科技发展规划,是依据《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》制定。《规划》提出了“十四五”时期金融科技发展愿景,明确金融科技发展的指导思想和4个基本原则、6个发展目标,确定了8项重点任务和5项保障措施。
《规划》在“第三节 打造信息数字基础设施中提出了”建设绿色高可用数据中心”, 包括架设安全泛在的金融网络,布局先进高效的算力体系,进一步夯实金融创新发展的“数字底座”等,包含了对金融企业在IT运维领域具体的指导,相关内容如下:
第三节 打造新型数字基础设施
(八)建设绿色高可用数据中心
综合功能定位、取土分布、网络通讯、电力保障等统筹规划数据中心,建设资源更均衡、供给更敏捷、运行更高效的金融信息基础设施,按照系统、机房、城市等容灾目标,积极采用多活冗余技术构建可靠、多层级容灾体系,满足日常生产、同城灾备、异地容灾、极端条件能力保全等需求提升金融数据中心纵深防御能力,逐步形成更高可用数据中心格局。建立健全金融数据中心智能化运维机制,深化自动传感器、巡检机器人等新一代人机交互技术在数据中心运维应用,加强多场景协同联动、多节点一体管控,提升节点感知、异常发现和故障预测能力,降低人工操作风险,推动运维管理模式转型升级。积极应用绿色节能技术和清洁可再生能源,加快数据中心绿色化建设与改造,加强能耗数据检测与管理。新疆大型、超大型数据中心电能利用效率不超过1.3。到2025年,数据中心电能利用效率普遍不超过1.5。
《关于银行业保险业数字化转型的指导意见》由中国银行保险监督管理委员会2022年1月下发。《意见》描绘了从2022年到2025年全面推进银行业和保险业数字化转型“路线图”,要求“到2025年,银行业保险业数字化转型取得明显成效”,这与中国人民银行印发《金融科技发展规划(2022-2025年)》时间点一致。
《意见》在“科技能力建设”中提出了” 加大数据中心基础设施弹性供给”, 从优化数据中心布局、加快构建自动化运维体系、统一监控平台、提高运维侧研发能力,以及数据中心绿色转型等方面提出了银行业和保险业IT运维领域的指导意见,相关内容如下:
五、科技能力建设
(十八)加大数据中心基础设施弹性供给
优化数据中心布局,构建多中心、多活架构,提高基础设施资源弹性和持续供给能力。加快构建面向大规模设备和网络的自动化运维体系,建立“前端敏态、后端稳态”的运行模式,推进基础设施虚拟化、云化管理。建立对信息科技资源全方位覆盖的统一监控平台。提高运维侧研发能力,积极运用大数据加强态势感知、故障预警和故障自愈,不断提高运维智能化水平。积极推进数据中心绿色转型。
从近两年的金融行业政策性文件的关键词中,我们可以看到故障预测、统一监控,态势感知、异常发现、变更风险、事件预警等词高频出现,代表着金融行业对于运维系统的能力要求。
必示科技以“运维系统稳定性为目标”进行智能运维产品研发,从事前预测和防范、事中快速分析定位和处理、事后经验知识沉淀,并以此为循环,在防范和处理运维问题的同时不断提升智能运维平台能力,最终降低MTTR,延长MTBF。详见【必示说】第一期:以“运维系统稳定性”为目标打造智能运维产品矩阵。