运维资料之运维的痛点和思路

◆ 运维方法的主要难点:

1、故障的发现
2、故障的止损
3、故障的修复
4、故障的规避

◆ 处理突发故障时主要关心的问题:

1、发生了什么
2、怎么解决
3、多长时间能解决。

由人力来回答这些问题效率低、不准确、不及时。因为我们要对付的这个系统实在是太复杂了。AIOps提高运维生产力的一种方式就是把处理突发故障时的人力分析尽可能的都替换成机器来做。

◆ 解决思路-运维大数据:

我们现在有非常多的监控工具,采集存储了海量的、价值极高的各种监控数据。当遇到突发事件的时候,能够基于这些数据快速准确做出决策。而处理海量、高速、多样的数据并产生高价值,正是机器学习的专长。也就是说,采用机器学习技术是运维的一个必然的走向。

具体而言,AIOps引擎 中的“异常检测”模块在检测到异常之后可以将报警第一时间报给运维人员,达到“故障发现”的效果;“异常定位”模块达到“故障止损”的效果,它会给出一些止损的建议,运维专家看到这个定位之后也许他不知道根因,但是他知道怎么去根据已有的预案来进行止损,然后再执行自动化的脚本。

你可能感兴趣的:(运维)