金融行业智能运维体系建设的三个阶段

企业数字化转型的关键是保证系统稳定运转,今天聚焦我们与多家金融行业头部企业共同探索出来的实践经验,希望对大家有所帮助。

IT系统分为“可用”和“不可用”,我们的目的是降低平均故障修复时间(MTTR),延长系统无故障时间(MTBF)。这是IT运维最关键的职责,也是AIOps当前最成熟、最成体系的落地方向。

金融行业智能运维体系建设的三个阶段_第1张图片

IT运维工作面临的挑战越来越严重。下图左侧展示了一家大型企业IT系统从底层硬件到上层软件数量变得非常庞大,而且它们之间互相关联,牵一发而动全身。右侧拆成了多个维度:不同运维对象,不同数据类型、不同故障,不同行业、技术架构演进等。可以看到,运维管理的对象一直在发生变化,运维空间在不断扩大,里面任一节点都有可能出现问题,并引发相关联的软件、硬件表现异常。

大量异常信息混杂在一起,故障快速定位和提前发现风险变得越来越困难,这也是我们要引进AIOps去提高排障效率让金融行业稳定运转的原因。

金融行业智能运维体系建设的三个阶段_第2张图片

传统排障与智能排障的核心区别是什么?我们用一个简单的示意图(下图)来展现,传统排障和智能排障的输入都是海量异构的运维数据。但是,传统排障一般是在报障或者告警后,由运维专家、管理员去分析数据、排查原因。智能排障是通过软件或者算法的方式,把海量数据中有价值的点提前或实时分析出来,帮助管理员做决策,节省对大量原始信息做排查的时间和人力。

金融行业智能运维体系建设的三个阶段_第3张图片

AIOps建设在全球范围内依然是一个较新的命题,我们与多家大型企业探索的AIOps实践之路,大致分为三个阶段:

第一阶段——智能排障1.0:黄金排障场景。我们找到运维领域常用的、数据相对普及且适合AI发挥效力的黄金场景,通过人工智能助力运维工作。围绕“MTTR”和“MTBF”,我们做到让故障快速被发现、快速被修复,降低无效告警带来的工作开销。比如平均告警有效性提升90%以上,故障定位准确率达到85%以上,平均故障修复时间降低70%。

第二阶段——智能排障2.0:排障。这是一个可以不断扩展的平台,我们正在和若干大型金融机构展开试点工作。

第三阶段——智能排障3.0:运行风险管理。我们希望把发现问题和排除故障的工作再做扩展,提前预知风险,避免形成影响业务的故障。

你可能感兴趣的:(技术干货,运维,大数据,人工智能,算法)