AIOps落地五大原则(二):价值路线

清华大学裴丹教授结合过去20年在AIOps领域与几十家企业合作、跨多种技术栈的落地经验积累,以及150篇左右学术论文的算法积累,总结出AIOps落地的15条经验性原则。这些经验分成5个大类原则,分别涉及AIOps落地的大势所趋、价值路线、架构路线、算法路线、生态路线五个方面。

上一期,我们分享了《AIOps落地五大原则(一)》,今天我们继续分享《AIOps落地五大原则(二)》,围绕AIOps“价值路线”介绍3条经验性原则。

原则2(价值路线)

统筹规划、要事优先、点面结合

智能运维已经如火如荼发展了一段时间,很多企业都在做AIOps的筹划,但是先做什么后做什么?Big Picture是什么?如何做多年规划的同时又逐年有实质落地效果?下面我将基本抛开技术实现的角度,仅从AIOps交付的价值角度,谈一下规划的三个原则。

原则2.a 统筹规划

首先,AIOps在运维的五个基本要素(即质量、性能、效率、成本、安全)中都有很好的应用前景。统筹规划的优先级方面,效率(Develop)相对独立,安全也相对独立,那么剩下的质量、性能和成本,先关注哪个?根据以往的经验,还是要先关注质量,即系统可用性,然后是性能,在这个基础上再进行优化成本。本文后续都聚焦在运维质量上进行讨论,而在性能和成本上的落地原则大同小异。

AIOps落地五大原则(二):价值路线_第1张图片

这里类比一下医学里著名的扁鹊三兄弟(下图),对于目前常出故障的一个系统来说, 我们最需要像扁鹊那样治大病的医术,其次需要像扁鹊二哥那样治小病的医术,最后需要像扁鹊大哥那样治未病的医术。具体而言:我们首先要降低故障修复时间,这是规划里最重要、最痛的点;其次,我们要做延长无故障时间,识别并消除那些小隐患;最后,我们还要通过故障演练,即便日常中没有小故障发生,但通过注入故障引出问题,然后解决掉问题,不影响真正的用户。

AIOps落地五大原则(二):价值路线_第2张图片

规划中最迫切的“运维质量:降低故障修复时间”有很多细分步骤,实际落地起来挑战重重:多源多模态且信噪比低的运维数据;关联所需要用到的依赖数据非常复杂且不易获得,有时数据质量也不高。很显然我们无法一蹴而就,必须要统筹规划,分步骤、分阶段地实施,不断取得阶段性的成果。

AIOps落地五大原则(二):价值路线_第3张图片

统筹规划的前提是要总结出一个相对完整的体系,运维质量的体系包含四个维度:一家企业所属行业;一家企业有哪些运维对象(如中间件、数据库、存储、应用等);有哪些不同的故障类型及在数据中如何体现;采用的是哪些技术架构(如集中式架构、开放架构)。统筹规划的实施就是在多维度组合中确定哪些先做、哪些后做。

AIOps落地五大原则(二):价值路线_第4张图片

原则2.b 要事优先

在上述体系中,决定先做的原则是要事优先,即聚焦并串连最终导致业务故障的常见异常。这里引用一个数字,某企业80%的业务故障是由少数组件的少数类型的故障导致的。这其实遵循了“二八定律“,20%的组件故障类型导致了80%的业务故障。因此,我们应首先聚焦解决这些常见故障,要有全局视野,先抓重点细节,聚焦并串起导致那些业务故障的常见组件故障,这就是规划AIOps时从价值角度出发的“要事优先”原则。

AIOps落地五大原则(二):价值路线_第5张图片

原则2.c 点面结合

规划落地AIOps时,有两种误区:一是只看有可量化价值的具体的技术“点”(如业务指标异常检测);二是只看有可量化的端对端价值的场景(“面”,如MTTR);而我们总结的原则是“点面结合”。比如,也许因为依赖其它技术点, 业务指标异常检测还没有产生端对端的效果(降低MTTR),但是其本身有一些评估指标(相比传统方法提前X分钟发现故障),这能给予我们很大的希望。就像医院里一个医疗设备,它比原来的设备检测得准、检测得快,它的价值就应该得到认可,它的价值不能因为需要一些其它技术点才能产生完整的端对端价值而被否认。反之,对于端对端价值的不懈追求并且以量化方式不断衡量(如MTTR),能清晰指引我们规划需要不断突破的技术点。因此,规划时,点和面都重要,点面要结合,都要体现可量化的价值。

AIOps落地五大原则(二):价值路线_第6张图片

以上是裴丹教授关于“AIOps落地的价值路线”详细解读,下期将继续分享“AIOps落地的架构路线”。

你可能感兴趣的:(人工智能深度学习运维)