银行数字化运维转型应对之道

一、银行运维的发展和演进

随着数字化发展浪潮,移动互联网、大数据、云计算、AI技术等金融科技业态逐步向传统金融领域渗透,银行业务系统越来越庞大,系统之间的关联越来越复杂,金融科技的不断发展一方面为传统银行业的跨越升级插上了腾飞的翅膀,另一方面也给数据中心运维带来了极大挑战。业务的高速增长始终离不开运维的强有力支撑,银行数据中心从部件级运维到一体化发展,数据中心的内涵也从单一数据存储场所向智慧运营不断演进。

01、单一数据存储阶段

在单一数据存储阶段,数据中心的运维重点是服务器、存储和网络,主要承担的功能是数据存储和管理,集中存储了银行的业务数据。处于此阶段的数据中心功能比较单一,整体可用性低,业务连续性要求不高,仅仅便于数据的集中存放和管理,面向单套业务系统的存储和应用,运维管理粗放,资源台帐不清,运维人员时刻处于“火线”边缘。

02、数据集成管理阶段

数据集成管理阶段是数据中心运维管理的转型阶段,此时数据中心组织专门的人员进行集中维护,注重运维效率,为业务系统提供有效支撑。有些做得比较好的数据中心已经开始集成CMDB,自动化集成ITSM流程,通过云服务实现自动化的服务交付,对系统维护上升到了管理的高度,从事中干预、事后处理慢慢过渡到事前预防。业务连续性要求较高,IT系统的可用性已经作为部门KPI列入年度考核,数据中心要求有较高的稳定性和可靠性。

03、智能运维阶段

智能运维的数据中心,从注重运维效率转变为更加注重运维质量,业务与科技深度融合,业务系统对数据中心的运维要求已不仅仅是支撑,而是提供安全、持续、稳定、有效的科技服务,此阶段的数据中心已经演进成了金融服务提供中心,服务流程趋于规范化、标准化、统一化,并通过信息技术实现自动化管理。数据中心集成、管理和维护了各种资源,从技术运维转向了技术运营,实现基础设施和服务实时交付,保证计算资源价值最大化。数据中心高可用性和业务连续性要求高,重要信息系统应用级灾备覆盖率达到100%,且具备有效的异地数据级灾备,灾备接管时间为分钟级。

二、痛点分析

受制于成本,在科技人员配置和资金投入时一般都是重开发轻运维,运维管理粗放,这就不可避免地暴露了很多运维的问题和痛点。

01、制度不规范

运维制度不规范,人人都有一套运维标准,处理各有差异,岗位职责边界不清,协同性差,紧急问题得不到有效处置,从而运维事故频发,带来极大的安全隐患。

02、流程不合理

流程的有效性和可操作性直接影响了运维质量和运维效率。故障响应时间慢,故障定界定位难,故障处理缺乏统一有序步调,问题跟踪方式自成一派。“烟囱式”或“救火式”运维,每位运维人员都“救火队员”,增加人力成本,影响业务效率。

如今大多数中小型城商行的数据中心都部署了各类运维支撑工具或平台,比如ITSM、自动监控平台、堡垒机、日志管理平台、灾备切换平台等,但大多数运维场景下,这些工具平台各自为政,没有串联形成体系,相互之间缺乏有效的流程进行编排和管理,流程和工具的衔接存在断层,协同调用依赖人工进行,增加了运维投入但却没有简化运维。

03、运维技术水平低

在实际操作层,技术是运维的核心,强硬的技术实力是运维体系的底座支撑。随着业务迅猛发展,基础设施快速膨胀增加了运维管理的复杂度,业务系统对IT基础设施提出了更高的运维服务要求。多设备、多厂家、多产品导致运维复杂度攀升,为达到高效运维,就必须利用技术手段为不同技术路线的系统环境提供统一的服务接口,整合事件处理、变更管理、服务请求、配置管理等多项流程,将流程和操作一体化,同时还需要熟悉多平台、多业务、多工具的复合型运维人才。

但现实情况是,中小型银行在运维投入上捉襟见肘,大多数运维手段还停留在人工阶段,自动化运维平台没有充分发挥应有的效能,需过多的人工操作

04、应急管理不高效

银行业务具有较高的实时性和稳定性要求,一些面向客户、涉及账务处理且时效性要求较高的业务处理类、渠道类和涉及客户风险等业务的管理类信息系统已长期处于严格的监管之下,若这些重要系统发生非计划内中断,高效的应急管理显得尤为重要。受限于自身原因,中小型城商行的应急管理体系建设还不够全面,没有形成自上而下的合力,产生了许多突出的问题。

风险防范意识不高
缺乏信息系统风险防范意识,对信息系统的应急管理都不够重视,容易滋生信息系统重大安全事件,严重威胁银行的正常生产经营

灾备体系不清晰
缺乏对灾备体系的统筹思考和总体架构设计,灾备系统架构不清晰,延展性差

系统应急案不完善
专注与操作细节,缺乏总体规划和统筹安排;需要及时总结经验教训,同步更新应急预案。

三、运维转型的思考和对策

鉴于以上痛点分析,要实现运维转型,须从思想上统一认识,认可运维工作的重要性;然后制定并及时维护相关规章制度和操作流程,规范运维操作人员行为,降低操作风险;最后才是最近提得比较多的,利用技术手段建设集中整合运维平台,实现运行、监控、变更、应急等流程一体化、自动化、智能化,达到智慧运营的目的。具体的思考和对策如下:

(一)战略层面——管理层关注

大部分中小型城商行均没有配备专职CIO,信息科技部在银行高级管理层眼里仅仅是一个巨大的“成本中心”,不会产生实际效益,科技的重要性并没有渗透至管理层。随着银行业务的快速发展,信息科技风险以及由此带来的衍生风险并不亚于系统性金融风险,监管部门对银行信息科技的监管也日趋严格。若高级管理层可以从战略层面重视信息科技,将业务与科技深度融合,关注科技体制健康有序发展,科技赋能业务,组建训练有素的科技团队,就能有效规避各类生产运行风险,助力业务系统持续稳定运行。数据中心是业务系统的总后方,科技部领导也应重视数据中心运维管理,为数据中心运维提供动能和驱动力。

除了要重视运维,管理层也应该为数据中心运维提供切实可行的指导思想,主要表现在以下五个方面:一是标准化,要求完善制度制定和修订,一切工作按制度执行,有章可循,在操作上严格要求规范化、标准化。二是自动化,进一步提高监控、配置、作业调度等工具使用,提升运维自动化水平,降低人员操作失误率和风险。三是集约化,深入推进“大运行”,并统筹考虑数据中心运维一体化管理工作。四是自主化,加强人员培养和岗位技能考核,对关键系统、关键岗位逐步实现自主运维。五是精细化,在运维工作的各个方面,不断量化,力求用数字说话,加大量化考核力度。

(二)提质降本增效

实行运维的“全生命周期”管理,提质、降本、增效。

提质,实现运维体系自身的价值。数据中心制定服务化,标准化的运维流程,主动性预测预防,最小化的应用中断,减少系统故障率,提升业务系统的用户体验度。

降本,机器不是来取代人,而是将宝贵的人力成本投入到高价值领域,通过自主化运维提升人员素质,加速人才转型,降低综合成本。

增效,通过自动化设计提升运维效率、集约化设计提升数据中心整体资源利用率和复用率,增加CPU算力负载和网络负载效率。

(三)技术与流程全面提升

运维过程中出现的问题中,人为操作问题和流程设计问题各占40%,技术问题占20%。因此,在实操层面,需要从运维人员、运维流程和运维技术三方面进行讨论。

  1. 运维人员
    从依赖厂商到自主可控,从标准化到脚本化,从半自动化到自动化,不管如何调整,最终方向都是要培养自己的运维力量,做到自主运维。

2、运维流程
运维工作中的每一个步骤都要有流程、有审批、可监控、可追溯

利用流程,理清岗位职责的边界,完善标准化流程

3、运维技术

通过统一管理实现数据中心工具(技术)、流程和制度间创新性融合,构建统一的运维管理技术平台,完成设备选型、规划、上架、故障处置、变更、调优、回收全生命周期管理,从人防到技防,从粗放式运维到精细化运维。

四、小结

搭建统一运维管理技术平台,实现数据中心全生命周期管理形成统一的对外服务水平达到科技赋能业务发展的最终目标。

你可能感兴趣的:(运维,big,data,devops)