IT运维服务在银行信息化建设和运行中的核心地位,而定量、实时的交易数据、事件和性能指标成为判断信息系统安全运行状态的主要依据。因此,进行银行业IT运维监控指标体系研究与构建,建立IT统一运维监控指标体系至关重要。

从信息系统期理论出发,信息系统大致分为规划与设计、开发与测试(或购买)、实施、运维管理与持续改进五个阶段。而前三个阶段从时间角度看,只占整个周期的20%,其余时间基本上是对其进行运行维护。这就决定了IT运维服务在银行信息化建设和运行中的核心地位,而定量、实时的交易数据、事件和性能指标成为判断信息系统安全运行状态的主要依据。

一、IT运维监控指标体系研究的背景和意义

1.业务发展的客观需要

为了充分发挥运维监控的预警作用,逐步提升各类运维监控指标的覆盖率和完备率,我们需要建立一套系统、规范、面向业务服务的运维监控指标体系。在管理层面,该指标体系旨在让企业管理者花更多的时间在决策上,而不是用于了解复杂、繁琐的IT细节上;从服务定义、服务水平管理、服务监 控、服务诊断的角度,让管理者一目了然;既满足企业要求的服务水平,确保最佳的业务系统表现,又辅助整个企业的业务运营与IT决策。

在技术层面,该体系既可以丰富开发新业务系统时的非业务功能需求,使开发团队在系统设计阶段,就把以后运维阶段需要关注的监控指标内嵌到应用系统中,起到 “未雨绸缪”的作用;又可以在老系统改造过程中增加指标的监控功能,起到“亡羊补牢”的效果;同时,该指标体系对于运维团队全面、有效地部署和配置各类运维工具也起到“有的放矢”的指导作用。

  1. 监管导向

    根据银监会《商业银行数据中心监管指引》第二十六条第八款“应集中监控重要信息系统和通信网络运行状态。采用运维监控工具,实时监控重要信息系统和通信网络的运行状况,通过监测、采集、分析和调优,提升生产系统运行的可靠性、稳定性和可用性。监控记录应满足故障定位、诊断及事后审计等要求。”为了满足上述 要求,迫切需要建立一套切实可行的运维监控指标体系来指导监控和分析工作,促进运维管理工作的系统化和规范化,降低运维风险。

二、IT运维监控指标体系的研究

在系统资源层面可以分为数据库类、中间件、操作系统类和存储四大类。其中数据库类的指标可以分别反映服务器的运行状态、实例的运行状态、会话数、锁资源和 监听器的运行状态。中间件类根据不同的使用特性,如业务中间件、消息中间件等,细分为WAS、Weblogic和MQ三种。操作系统类可以按照使用环境分 为Windows、Linux和Unix三种,客观反映各种主流操作系统的运行状态。存储系统类可分为光纤交换机、光纤交换机端口、存储系统、XP存储系 统和光纤链路,客观反映存储系统端到端的运行状况。

在网络层面按照管理特性可分为网络或安全设备的处理器、内存、风扇、温度、电源、系统、设备端口、运行协议等不同纬度客观反映网络环境的运行情况和运行质量。

在机房基础设施层面可以按照管理设备种类分为电量仪、UPS、空调等,反映机房基础设施的使用情况和运行质量。

上述领域的监控指标通过标准化的数据采集接口收集整理、分类汇总和关联分析,进行IT统一运维监控管理,实现了事件管理、性能管理、告警管理、故障分析等风险处置功能。同时还能提高运维管理工作(跑批、备份、版本、维保、值班、资产等)的日常监督和及时提醒功能。

三、IT运维监控指标体系的构建方法

为了促进监控指标有效落地,充分发挥监控预警作用,需开发和运维团队积极配合,围绕逐步优化和完善指标体系开展工作,从指标梳理、指标设置、指标权重计算、指标评估、体系建立五个阶段,形成持续优化的闭环工作过程。

1.指标的梳理

各开发和运维团队需要根据业务特点和系统情况,结合实际运维工作需要,采用专家经验法,以调查问卷的方式选取相应的监控指标形成特定的监控指标集
针对性能类指标,指标阈值是衡量应用系统性能容量是否正常、是否需要优化或扩容的量化依据。可以将阈值分为基准阈值、关注阈值和告警阈值三种。

基准阈值是指信息系统正常运行状态下的标准值,即该系统在业务时段,性能容量指标正常运行时的数值。关注阈值是指分析评估信息系统是否需要优化的临界值, 其数值是在基准阈值的基础上上浮一定比例,具体比例应根据信息系统的特点而定。告警阈值是指信息系统要进行扩容的临界值,仅需对关键指标设定该类阈值。

理想情况下,阈值的设置应遵循“基准阈值<关注阈值<告警阈值”的原则;阈值的初始设置可依据系统的运行特性,结合专家经验而定,在实际使用过程中,可根据指标监控情况进行调整。

2.指标的设置

在指标梳理的基础上,各运维和开发团队应对监控指标集中每个指标进行科学的设置,设置内容包含指标采集方式、采集频率(采样间隔)、指标数据类型、触发告 警条件、告警级别、告警描述、指标数据输出接口类型和字段格式等对于关键指标应明确标识,例如在指标名称前加*号标识。

对于关键性能类指标还应明确其阈值的设置,

3.指标权重的计算

在设计指标权重时,各使用部门可以使用专业的层次分析法进行定量计算,也可以使用通常的专家经验法进行定性划分。层次分析法的好处是可以解决因子分析法有时无法采集数据的缺陷,且通过指标间的两两比较,在确定多指标的权重时,较他方法而言更可靠和准确。而专家经验法在评判权重时相对简单,但缺点是因指标太多,无法综合判断导致的指标权重不准确,需要后期持续优化。

4.指标的评估

实际运维工作中,在充分发挥各类监控指标用途、又不影响正常的业务生产活动时,为了推动运维管理质量的提升,需要遵循SMART原则对指标进行评估。即:S代表具体(Specific),是指监控指标要有针对性,不能笼统;M代表可度量(Measurable),是指监控指标是可量化的,验证指标的数 据或信息是可获取到的;A代表可实现(Attainable),是指监控指标可以通过现有技术手段或工具采集到的;R代表相关性(Relevant),是 指监控指标与其他指标存在逻辑上的相关性;T代表时限性(Tine_bound).是指监控指标的获取要有时间周期的限制。

5.指标体系的确定。经过上述过程,明确了哪些指标需要监控,指标之间的层次和依赖关系,重要程度等信息。通过这些信息,就可以清晰地构建一个层次化的指标体系

四、小结

建立IT运维监控指标体系是提升运维管理、ITIL落地实施中最为基础,也是最重要的环节。今后我们对于系统运行健康状况的判断,不仅可以像中医一样的“望、闻、问、切”,还可以像西医一样的“×××、化验、做CT、专家会诊、打疫苗和预防宣传”。从而让“定量分析”与“定性判断”相结合,“运维经验” 与“实时数据”相结合,“前期开发”与“后期运维”相结合,打通系统开发和运维管理工作界面,使IT统一运维监控管理不仅为防范运维风险提供及时预警和综 合分析功能,同时也为优化应用系统性能提供了详实和科学的参考依据。