智能运维平台在证券业的部署实践

背景

现代证券行业涉及大量资金的频繁交易,且需要严格遵守监管法规,因而证券企业对交易系统的可用性、连续性等指标有着极高要求,交易系统的运维管理水平能够直接影响企业业务的运营质量和安全性,低效的运维工作甚至会拖累业务的增长潜力。随着证券业务规模的迅速增长和新技术、新组件的引入,传统运维手段越来越难以满足复杂交易系统的运维需求。近年来,一批富有探索创新精神的证券企业开始将目光投向基于机器学习算法与运维大数据的智能运维体系,希望凭借智能运维手段推动企业数字化转型,为业务持续成长打造坚实IT基础。

在这样的时代背景下,2019年,某头部证券企业率先迈出了建设智能运维体系的战略步伐。经过充分评估,该企业最终决定与必示科技共同建设智能运维平台,以更加高效的手段应对运维工作挑战。

  • 赋能监管控运维体系,提升运维效率和系统可用性,改善RTO水平,降低MTTR。
  • 引入成熟可控的开源组件和技术,降低运维系统建设成本。
  • 探索金融领域可落地、可复制的智能运维体系建设实施路径。

智能运维体系建设实践

问题与痛点

  • 细粒度业务指标覆盖范围不够,业务指标的阈值配置依赖于管理员经验,且配置维护工作量大,难以快速、大规模扩展指标监控范围。
  • 应对大规模数据的排障过于依赖人力投入,不仅耗时较长,且难以保持较高的准确度。由于人工手段效率不足,大量运维数据难以被充分利用。

针对上述问题,该证券企业与必示科技以场景驱动、充分挖掘数据价值为思路,开始合作探索适配证券行业特点的智能运维场景,构建符合企业运维需要的智能运维能力。

解决方案

基于已积累的丰富运维数据,该证券企业从具体的运维场景出发,持续演进构建智能运维分析能力。智能运维平台将运维需求区分为多个场景,并为每个场景搭配了相应的能力和解决方案:
智能运维平台在证券业的部署实践_第1张图片
异常发现能力:包括业务指标异常检测和日志异常检测场景,业务指标从功能号的角度对业务可用性指标进行实时检测,并将指标粒度从分钟级提升到秒级来适配券商交易时效性高的特点;日志则从应用日志、系统日志的角度发现日志数据中蕴含的异常事件,并作为故障排查时的佐证。

异常定位能力:包括业务明细多维定位和机器异常定位场景,业务明细数据中蕴含丰富的维度数据可用于判断异常根因维度和故障影响范围,机器指标数据则用于判断IT基础设施对象的运行状态在故障时段是否存在异常。

与人工排查为主的传统运维手段相比,智能运维平台可利用机器学习算法快速分析大规模运维数据,从异常发现和异常定位两方面有效提升运维系统对海量数据的利用效率。该证券企业充分运用这一优势,将现有各类KPI数据与业务明细数据、日志数据相结合进行自动化关联分析,有效改善了故障的发现与定位流程。
智能运维平台在证券业的部署实践_第2张图片
首先管理员通过业务指标和应用日志的实时异常检测去及时发现异常事件,之后会通过业务维度的定位结果去判断初步排查方向或异常影响范围,接下来结合机器指标和日志数据的分析结果、事件工单等去做进一步的故障排查,以确定故障原因、故障处理方案。

项目成果

该证券企业与必示科技经过深入交流和紧密合作,针对券商业务特点和数据特点对智能运维平台进行了一系列适配和优化,取得了明显的运维工作改善成效:

  • 实现业务精细化监控,有效扩展监控范围、提升排障效率。平台将业务监控指标时效从数分钟提升至10秒,异常定位速度提升至分钟级。平台覆盖数万个检测指标,覆盖率大幅提升。
  • 优化系统潜在风险,提升业务竞争力:平台将系统MTTR降低约5成,节省多个运维人力岗位需求。数月内发现近百个潜在风险点,大幅提升企业风险防范能力与运行保障能力。
  • 技术自主创新,双方合作共研:双方深度合作,在智能运维平台的建设过程中大量引入自主创新技术,充分根据实际业务与原有运维体系特征量身定制,缩短项目实施周期、降低平台部署成本与风险,并为未来的升级迭代打好基础。

总结

该证券企业是行业内最早建设智能运维体系的先行者之一,经过与必示科技的合作,双方在运维场景与券商业务特点适配方面取得显著成果,有效提升了业务系统的运维质量和效率,增强了业务系统的稳定性,并多次荣获行业奖项,为证券业的智能运维转型升级提供了良好的示范作用。

通过智能运维体系建设,该证券企业应对业务系统运维难题和系统潜在风险的能力明显增强。该项目成果能够快速复制到其他同行业客户,帮助更多证券企业完善运维体系建设,为数字化转型构筑稳定可靠的能力基础。随着更多企业与必示科技合作,智能运维技术正迅速普及,成为金融科技领域不可或缺的关键要素。

你可能感兴趣的:(人工智能)