【必示说第七期】IT系统变更风险防控

上期【必示说】从国务院机构改革看智能运维行业未来趋势提到,本次国务院机构改革很大篇幅落到了科技、金融和数据上。对智能运维行业来说,无论是以AI为代表新兴产业的促进,还是对金融领域监管的加强,以及对数字经济加速后带来的庞大数据量的运维需求,都会极大促进智能运维领域的健康发展。

随着数字中国、数字经济、数字社会规划的深度发展和建设的持续推进,各行各业势必会产生更多智能运维相关的需求,以满足针对不断更新迭代的业务系统和日益增大的数据量的运维能力。同时,在数字化、智能化不断推进的背景下,频繁的系统升级与变更也随之而来。变更推动着企业业务发展的同时,也带来了实施变更的风险。无论是应用发布导致的变更(主要为版本迭代、补丁升级等)、外部条件触发的变更(服务器宕机、硬盘故障、出现BUG、版本回滚等)、架构优化调整导致的变更(代码重构、优化、迭代,数据维护、以及配置、文档、设计等的变更等),都可能对正常运行的系统和服务带来未知的风险。事实上,70%以上的运维事故是由变更引起的。

系统变更在软件开发和系统维护过程中是频繁且不可避免的,而频繁的变更通常会给运维工作带来不可预知的风险,影响业务系统稳定运行,因此对变更的检查是不可或缺的。而目前对于变更实施后的检查多以人工验证方式完成,存在耗时耗力、脚本配置困难、容易出现漏查错查等问题。总之,目前变更问题发现主要靠人工检查和经验判断的方式经常出现错查漏查的情况。
【必示说第七期】IT系统变更风险防控_第1张图片

变更可能引起的运维事故包括数据丢失、安全漏洞、功能失效、性能下降、用户误操作甚至系统崩溃等,可能会导致严重的经济损失、数据损失、安全问题、信誉危机甚至品牌减损。

美国富国银行3月10日发布消息称,由于该公司系统出现技术故障,导致部分储户的存款数据丢失。虽然富国银行12日已经发布消息称目前部分问题已经修复,但由于这次事件恰好发生在硅谷银行破产危机发酵之际,因此引起了社会广泛关注。一些美国人在社交媒体上表示,为了自己的资金安全,计划从富国银行取出所有存款。虽然没有公布具体的技术故障的原因,据业内人士推测,这种类型的数据丢失可能是因系统变更引起的。

当前以监控和巡检工作为主的运维变更管理工作往往偏向被动模式,运维工作缺乏前瞻性和计划性,难以持续自我优化质量和主动提升效率。在AIOps理念已经处于"从理想照进现实"的行业成熟阶段,IT运维领域需要一款AIOps产品用于应对变更带来的潜在风险,必示变更风险感知平台(ChangeSeer)应运而生。

必示变更风险感知平台

必示变更风险感知平台是基于资深运维风控最佳实践和应用变更场景研发的智能化运行风险识别和管理产品,通过融合数据洞察手段和人工智能算法,针对应用变更,挖掘海量运维数据中的潜在风险点,旨在帮助企业数据中心主动发现和提前消除因变更引起的隐患,推动运维工作“从事中应急到事前预防”、 “从被动到主动”、从“单一到立体”,提升业务系统运维保障质量。

必示变更风险感知平台以数据平台为数据集成能力底座,整合多源、异构运维数据;以运维算法专属平台为智能化能力底座,结合专家业务知识、融合AI算子编排和调用能力。通过平台灵活的编排配置,可以针对各类场景需求,形成标准化的风险检查项,构建面向系统变更的风险识别能力,并借助风险管理流程实现风险闭环管理,达到将知识、AI、自动化、管理规范等内容融入运维工作流程的目标,并以可量化的衡量标准提升变更后运行健康指数。根据必示变更风险感知平台当前应用实践情况综合来看,必示科技变更风险感知平台通过人机协同的方式帮助运维人员减少90%的变更验证时间,并有效发现60-80%的变更风险隐患。

案例分享 :某股份制银行风险变更项目

◆ 项目介绍

在该银行业务规模不断扩大和业务创新加剧的过程中,新业务需求日益增多、上线周期越来越短,软件开发过程的不确定性使得版本投产存在问题在所难免,高频次的上线导致出问题的概率也随之增高。如何适应高频率发布的同时保障业务系统运行的稳定性是某行生产中心的核心任务之一。
【必示说第七期】IT系统变更风险防控_第2张图片

◆ 项目效果
【必示说第七期】IT系统变更风险防控_第3张图片

◆ 解决方案概述

必示智能风险感知平台利用其轻量级部署即插即用的特性,为运维数据智能分析平台引入智能化变更质检能力,提供人机协同质检引擎、任务调度管理和分析报告等功能,与运维自动化平台对接触发变更检查任务,构建智能化风险检查手段,及时感知系统变更后可能存在的不确定因素。平台包括:

  • 根据不同应用系统运行特点,分场景制定应用运行智能检测方案,运用智能算法分析,提高应用系统运行检测的标准化、高效化、智能化;

    在应用运行智能检测前,支持根据专家经验或测试结果调整检测指标值,提高应用运行检测准确率;

    支持多系统集中运行检测,提高多系统应用系统运行检测效率;

    按系统提供应用运行智能检测报告,汇总分析各领域指标运行情况,辅助技术人员快速排查系统隐患,保障系统业务连续性。

该项目纳管近70套重要业务系统,接近15000个交易码,超过2000台主机,涵盖交易量、失败量、成功率、响应率、平均响应时间、未响应量等6类交易指标。建设变更后风险感知场景,基于智能风险识别算法,编排和创建数十个智能检测策略。

你可能感兴趣的:(技术干货,人工智能,大数据,运维)