从早期的金融云建设,到后来各种智能应用的落地,经过近几年的数字化转型升级,银行业在数字技术创新应用上正呈现出新的特点。众所周知,对于银行业来说,数据不仅仅是核心的生产资料,更是赖以生存和发展的基石。因此,在银行加速数字化转型进一步提速的过程中,推动数据中心智能化运维正在成为保障金融业务稳定持续运行的重要一环。
2022年年初,央行发布的《金融科技发展规划(2022-2025)》提出,要建立健全金融数据中心智能化运维机制,加强多场景协同联动、多节点一体管控,提升节点感知、异常发现和故障预测能力,降低人工操作风险,推动运维管理模式转型升级。
在这一指导意见的指引下,北京银行加快投入智能化运维体系建设的步伐,积极探索实践应用网络协同一体化运维的新模式。为了帮助北京银行实现这一目标,华为通过与合作伙伴联合共创,打造了应用网络一体化智能运维解决方案,为“数字京行”建设和用户体验升级构筑起坚实的数字底座。
进入数字化转型深水区
网络智能运维浮出水面
近年来,通过云计算、大数据、人工智能等新ICT技术与金融业务的持续融合,正在推动银行业数字化转型进入深水区。
首先是移动化的加速,线下业务逐渐转到线上,服务效率大幅提升;
其次是服务正变得无处不在,银行必须通过千人千面的个性化服务,从而增强用户粘性;
第三是业务敏捷发布,创新应用需通过多种渠道发布上线,快速实现商业变现。
为了满足业务数据量、用户规模、使用场景的暴增,银行的IT架构日益复杂,所需要引入的运维平台和工具也越来越多,如何实现这些平台间数据的互联互通,提高整体运维效率,正在成为银行IT运维团队迫切需要解决的问题。
在北京银行,线上业务的迅猛发展使得业务的互访关系变得错综复杂,一笔交易的完成可能要涉及多个业务系统,如何端到端实时感知业务交易的质量,进而区分每段交易在各个应用流转中的质量,对应用可视化运维提出了新的诉求。
不仅如此,随着分布式、大数据业务的兴起,数据中心东西向流量占比越来越大,分布式“多打一”流量极易引起微突发等问题,传统监测手段难以察觉。分布式架构带来网络设备成倍增加,业务稳定运行要求网络隐患可提前识别、故障可快速定位,这也给网络智能运维带来了新的挑战。
除此之外,在业务开展中,一旦业务出现访问慢等问题,通常需要多部门投入定位,应用和网络人员需要反复沟通,特别是对于偶发性的业务投诉类问题,由于交易过程涉及的应用系统多、网络路径长,需要应用和网络更自动化、智能化地联合运维,这就对应用和网络系统间能力互通、数据流通提出了新的要求。
面对上述挑战,在已经建成应用性能分析平台和网络运维平台的基础上,为了使运维工作更加高效、自动化、智能化,达到缩短业务问题定位时长、支撑业务稳定持续运行的目的,北京银行亟需推动网络架构从人工主导的传统运维亟待向网络智能运维转变。
一体化智能运维解决方案
让网络运维更智能
为了帮助北京银行实现网络运维的自动化、智能化,华为与北京银行携手,共同探讨了一系列关于数据中心智能化运维演进的思路,并通过落地华为与天旦联合打造的业务级智能运维解决方案,在实践中寻找保障业务安全生产的有效途径。
据了解,华为联合天旦发布的业务级智能运维解决方案,基于华为iMasterNCE-FabricInsight和天旦业务性能管理BPC(BusinessPerformance Center)构建了覆盖Underlay和Overlay的业务和网络一体化运维能力,可以实现分钟级故障定界定位。
不仅如此,该解决方案还可以跨越传统架构和云环境,跨设备和应用,为银行业客户提供统一的、面向业务的、智能的运维分析能力,保障了业务的稳定性和连续性。既成功地解决了云原生环境的业务性能监测难题,还满足了不同行业对于业务运维的管理需求。
如今,华为通过业务级智能运维解决方案的实施,已经帮助北京银行在网络智能运维上取得了以下三个层面的突破:
首先,多源统一,使能全链路应用性能监测。北京银行通过端口镜像捕获网络流量数据,可以从传统环境、虚拟化环境、云环境以及容器环境中实时地、完整地获取业务流数据,从而解析建立实时统一的业务视图,直观展现应用服务的业务逻辑、依赖关系、服务运行质量、发生的告警、并提供自动故障分析功能,可呈现每笔交易的业务路径并区分每个应用节点上的时间消耗,找到性能瓶颈,在业务提供服务的全过程中进行运维保障。
其次,夯实基础,积极布局网络智能运维平台。目前,北京银行已使用Telemetry技术秒级采集运维数据,解决SNMP采集精度差的问题,实时监测网络设备运行状况,在此基础上通过AI算法将多个网络指标关联起来分析,提前识别网络可靠性、容量、性能、稳定性等隐患,统一评估全网潜在风险,改变以前被动救火的运维模式,降低故障发生概率。
不仅如此,北京银行还将知识图谱技术应用在网络运维中,对全网基础资源统一建模,将网络对象、事件、传播关系进行联合分析,推理网络故障根因,只上报聚合后的根因告警,缩短故障定位时间。
第三、珠联璧合,探索应用网络一体化运维。北京银行积极探索应用和网络一体化运维的新模式,网络运维平台开放“网络路况”服务并与应用性能分析平台集成,将业务交易的全服务路径与业务流的网络转发路况进行一键关联,基于网络流量贯穿全局从而实时感知业务变化和质量劣化,通过应用到网络端到端路况可视,快速定界问题边界并定位具体故障原因,从而及时保障业务稳定运行和用户体验,也将运维从人工协作和数据孤岛中解放出来,打破运维边界,形成高效联合的作战能力。
夯实“数字京行”服务底座
提速数字化转型
如今,通过业务级智能运维解决方案的落地实施,北京银行首创的应用网络一体化运维模式,已经在顺义数据中心部署并在青岛分行业务中实践应用。
在实际应用中,业务级智能运维解决方案不仅可实时呈现业务调用链的路径和关键KPI,也可实时分析各应用节点之间的通信性能,并呈现该业务流在网络中的真实转发路径,以及该路径上面的状态、丢包、性能KPI等信息,可让IT人员在数分钟之内定位出业务问题原因,大大提升了运维效率。
由此可见,借助业务级智能运维解决方案的应用,北京银行在提升应用和网络运维智能化的同时,打破了两者的数据边界,实现了业务流量从应用到网络的端到端路径还原,并可以从应用交易视图一键下探到对应的网络路径和路况,使得业务问题的定界更加清楚、定位更加简单。
不仅如此,在业务级智能运维解决方案的支撑下,北京银行得以进一步推动金融科技和数字技术的融合,加快“数字京行”建设和用户体验的升级;进而构建独具自身特色的企业级基础架构体系,支撑全行转型增效。
如今,华为联合天旦发布的业务级智能运维解决方案,已帮助包括北京银行在内的多家金融机构实现了应用和网络一体化运维、故障分钟级定界定位,带来了业务体验的实时保障;同时在政府、医疗、制造等众多行业中落地应用,成为行业数字化转型的“加速器”。
在行业数字化转型逐渐进入“深水区”的今天,网络的自动化、智能化运维已经成为大势所趋。接下来,华为将继续加大金融科技的探索创新,稳步推动数据中心存储智能运维解决方案的落地,为加快推动企业的数字化、智能化转型提供有力保障,帮助企业进一步夯实数字化转型服务底座,进而探索出一条网络智能运维的新路径。