AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料

本文转录自:北大博士后严川在云智慧AIOps社区举办的Meetup上进行的《AIOps指标相关算法体系》分享。

直播回放:戳此查看在线回放

PPT下载:戳此下载资料

智能运维算法场景概览

传统运维VS智能运维

传统运维:

特点:处理速度慢,人力需求大;在海量监控数据下,传统运维效率低下。

  • 故障发现时间久

  • 故障定位时间长

  • 故障修复时间长

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第1张图片

智能运维

特点:处理速度快、人力需求小;在海量监控数据下,智能运维效率高。

  • 故障发现时间快

  • 故障定位时间短

  • 故障修复时间短

运维场景系统分析

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第2张图片

智能运维场景系统分析

智能运维:运维场景+智能技术,其围绕着指标/日志/追踪/告警四要素及其转化的AI使能。

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第3张图片

故障发现VS指标算法场景

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第4张图片

指标异常检测场景

智能运维中指标异常检测的意义

在运维领域中,指标异常检测是其他智能运维场景建设的基础,异常检测的结果将为后续的告警压缩、故障定位、故障自愈等场景提供重要输入。

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第5张图片

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第6张图片

  • 现有的监控告警系统大部分采用人工设定规则或阈值的方式来实现

  • 中大型业务系统中会面临更多的KPI数量,更复杂的KPI间的关联关系,以及更多样性的KPI型态

  • 运维领域中,人工设定规则或阈值的方法耗时且容易误报和漏报

智能运维中指标异常检测的应用场景

业务指标

  • 接口访问量

  • 用户数

  • 响应时间

基础监控指标

  • 主机系统指标:CPU利用率、内存利用率、IO利用率、温度、电压

  • 数据库指标:慢sql数量、连接响应时长、缓冲区命中率、表空间使用率

  • 中间件指标:socket数量、服务器响应时间、线程池使用情况

  • 存储设备指标:磁盘使用率、控制器信息、风扇信息

运营指标

  • 银行跑批业务

  • 乘车码主被扫业务

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第7张图片

时序异常监测在运维领域落地的困难

海量监控指标

企业的设备数、系统数众多,运维系统需要对海量指标进行监控,以保证企业服务的稳定运行。

KPI 的多样性

有监督异常检测算法对海量监控指标的成本高,当前只能从无监督视角进行检测,这对异常检测的准确性带来了更大的挑战。

某气象相关数据

异常类型多

异常类型包括“点异常”、“上下文异常”、“群体异常”、“缺失值”等

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第8张图片

某银行系统业务数据

异常标准不一致

不同指标、资源配置、运维人员,对同一模式,可能会有不同的判断标准、不同的ground truth。算法需要适配不同的敏感度需求。

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第9张图片

节假日活动管理

节假日和运营活动时,监控指标常会生成与常态不一致的模式,增加异常检测难度 。

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第10张图片

 

指标异常检测的挑战

单一算法难以适配多种数据类型

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第11张图片

数据异常vs业务异常vs调参

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第12张图片

单指标异常检测常见算法

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第13张图片

简单统计类

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第14张图片

时序分解类

指标分类与指标异常检测相结合

解决单一算法无法适配多种数据类型问题

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第15张图片

指标分类

常见的数据类型

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第16张图片

指标分类中周期性检验的重要性

周期性数据在所有数据中占比不高(25%), 但通常具有较高价值

检测数据:

1 是否具有周期

2 具有多少周期

3 每个周期成分如何

对于简化时序异常检测问题至关重要

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第17张图片

单指标异常检测在真实数据上的应用

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第18张图片

内存使用率数据

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第19张图片

交易量数据

指标预测场景

运维领域时序预测的意义

运维领域:

是其他智能运维场景建设的基础(容量规划、异常检测、告警压缩、故障定位、故障自愈等场景)

运营和网络安全: 关注增长和需求

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第20张图片

 

运维领域预测典型的应用场景

基础监控指标

  • 主机系统指标:CPU利用率、内存利用率、IO利用率、温度、电压

  • 数据库指标:缓冲区命中率、表空间使用率

  • 中间件指标:socket数量、服务器响应时间、线程池使用情况

  • 存储设备指标:磁盘使用率

运营指标

  • 银行业务量

  • 网络容量规划

  • 乘车码主被扫业务

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第21张图片

指标预测面临的挑战

单一算法难以适配多种数据类型

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第22张图片

数据质量对预测结果的影响

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第23张图片

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第24张图片

常见的预测算法

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第25张图片

统计类:

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第26张图片

时序分解类:

指标预测分类的重要性

不同种类算法适用的数据类型不同 ,是否需要集成学习?

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第27张图片

指标预测实例

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第28张图片

磁盘占用率

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第29张图片

系统CPU使用率

指标预测实际案例

某运营商运用实例

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第30张图片

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第31张图片

cpu使用率预测

关于Meetup

AIOps Developer Meetup是由AIOps社区推出的,面向广大开发者的系列线上直播及线下分享活动,我们将汇聚AIOps社区专家团的力量给你提供优质的技术内容,无论是技术解读、开源治理、行业解决方案,相信广大developers总能在这里找到你想要的内容。

AIOps社区是由云智慧发起,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交流社区。该社区致力于传播AIOps技术,旨在与各行业客户、用户、研究者和开发者们共同解决智能运维行业技术难题、推动AIOps技术在企业中落地、建设健康共赢的AIOps开发者生态。

最新Meetup预告

戳此可进行报名

AIOps(智能运维)中的指标算法场景分享 | 内附视频&ppt资料_第32张图片

你可能感兴趣的:(技术干货,ai,人工智能,运维,算法,安全)