智能运维

运维工作人员日常监测服务器的运行情况,数据库的连接情况以及服务器的CPU的占用率、内存环境指数等。

但由于企业机器较多,用人去观察机器的运行情况难免会造成不如用大数据或者AI手段来的更加迅速;而且也节约了大量的人力成本,故引入了智能运维这个概念。
 

相关场景:

资源发生故障(CPU突然飙升,数据库运行缓慢)可以和所影响的业务(用户访问量,访问延迟)做关联分析。

智能阈值:

固定阈值就相当于资源的使用率;

动态阈值像是一个性能曲线,CPU的使用率、页面响应、图片加载可以使用动态阈值(移动均线);

超过阈值既可以报警。

时间诊断和时序关联:

某个时间段出现的故障,都会产生一些相关的时间,对他们进行筛选和过滤能够详细捕捉到故障和定位到根因。

HSRT:

高响应,用决策树分析加载图片数量、浏览器内核、后台负载等条件;哪个特征的影响权重更大。

KPI瓶颈分析算法:

输入为一张又宽又长的表,其中包含KPI和影响到KPI的多维属性,输出为可能影响KPI性能的属性组合。这一科研问题包括首屏时间、应用加载时间、软件报错、视频传输用户体验等。

常用的KPI瓶颈基础算法有:决策树、聚类树(CLTree)、层次聚类。

故障预测算法:

使用多种模型或方法分析服务当前的状态,并基于历史的经验判断在近期是否发生故障; 譬如交换机故障预测,从交换机日志中提取一些预示故障的信号,常用的场景包括:硬盘故障预测、服务器故障预测; 使用的算法包括隐式马尔可夫链、支持向量机、随机森林。

KPI异常检测:

检测KPI的异常行为; 输入:KPI时序测量数据,KPI异常标注区间; 输出:KPI是否发生了异常。

KPI趋势预测算法:

通过分析历史数据,判断未来一段时间KPI的趋势,常用的算法有ARIMA、EWMA、时序数据分解。

KPI相似异常:找出与KPI曲线上与模板相似的异常片段; 常用的算法有DTW,MK 最佳配对。

KPI聚类算法:大规模KPI曲线,刻画曲线间的相似性; 大量KPI时序数据曲线、每条曲线所属类别。

故障传播关系图构建算法:异常时间众多且具有相互导致关系,借助精准故障传播关系图,可以快速进行根因定位。

异常事件关联规则挖掘算法:分析异常时间两两之间的关联关系; 现有算法FP-Growth、Apriori、随机森林。

智能熔断:

异常报警聚合算法:

故障定位算法:

 

 

 

你可能感兴趣的:(读书笔记)