智能基线解决方案
一、行业现状
业务系统在日常的运行中,存在运行趋势的动态变化,通过长时间的运行,将会形成大致的浮动曲线运行轨迹。由于仅通过人工操作的方式进行固定阀值的定义,没有结合业务趋势、周期活动数据、系统负载要求、历史告警处理意见等进行权重计算后,无法完成阈值自动化初始化、更新,阈值越来越难设定。
告警是在日常运维管理中最基础及重要的环节,对于业务管理的复杂性要远高于设备管理的复杂性,传统基于固定基线的监测点方法不能适应逐渐增多的数据及日渐复杂的数据类型,导致其检测结果不准确而产生错误警报,同时也大大耗费人力物力。
那么在目前的业务发展中,这样会有什么问题存在呢?
1. 固定阈值
用户无法明确设置一个合理的固定阈值,告警阈值单一,漏报率和误报率很高,无法为用户提供可靠的告警信息。业务在正常使用下,下班或晚上值班空闲期,业务正常应该不会超过2%的使用率,结果出现了病毒袭击,这时小范围的攻击,未触发告警,就会造成漏报的情况。
2.运行趋势
基线在用户的业务系统中并不是一成不变的,当用户有新的业务加入,或者当前业务有更新,势必会导致其基线发生变化。业务应用在运行的过程中,将会存在忙碌期和空闲期,由于时间运行趋势不同,无法做出不同的策略告警规划,如不能对于闲置期建立较低的安全区,忙碌期建立较高或不低于的安全区域,将导致异常波动未检测到或频繁触发可容忍告警,反而掩盖了真实的异常波动情况。
3.海量告警
没有全面的告警机制,在上班高峰期和下班业务空闲期,业务利用率的较大落差,采用固定阈值的方式,因为阈值设置不合理,将产生海量告警,用户需要花大量时间进行故障筛选和确认,影响故障排查及业务服务水平。
4.告警过滤
当告警产生大量的误报情况,运维人员还需要去海量的告警中,将可容忍故障进行确认恢复。对于病毒未及进发现的漏报情况,需查看历史数据进行分析排查,这让运维工作难以应对,所以对于固定阈值已经无法满足当前的业务告警需求。
5.阈值浮动
固定告警阈值无法随着实际的业务压力的增长而进行阈值更新,均需要人工操作。尤其在频繁度要求的情况下,人工操作无法做到快速响应。
二、解决方案
网强推出了智能基线的告警管理模式,主要是通过AI自动学习的一种手段,采用大数据分析,通过历史数据,自动学习业务的运行趋势,然后根据业务的上下浮动,建立业务运行的安全区域。通过对业务不同时间段的异常波动,实现监控的作用,帮助运维人员能够及时的发现故障,告警后提供历史数据曲线,并定位第一次触发的告警时间段,方便运维人员快速去追踪问题。
通过AI的自动学习,以及细腻的管理模式,能够方便建立每个单位不同的业务进行智能基线告警策略,有效的降低业务的漏报率和误报率,提高告警管理的有效性和及时性,从而实现智能化监控运维,提升运维管理水平,打造简单、智能、便捷的运维平台,最终保障业务系统的稳定运行。
1. 动态基线,智能趋势预测
现有IT监管系统,对于告警提醒的基本做法,都是采用人工设置各IT相关指标的固定告警阀值信息,不准确的阈值导致不准确的告警。
智能基线主要是结合网强的智能告警模板指标策略,以AI自动学习,基于历史统计数据来进行动态基线的一种算法,通过对现有业务运行的规律进行学习和分析,系统会自动生成一条最为贴近正常业务波动的基线数据,最终达到智能化数据引导的作用,能够方便运维人员合理的进行故障预测,避免运维人员对业务运行不了解,造成阈值设置不能贴近真实情况,导致告警不及时。
2.自定义智能基线,个性化配置
智能基线的配置,主要是在基线的基础上进行上下浮动的设置,由于浮动的比例是按基线的百分比进行递增的,当用户的百分比只有零点几的时候,乘以30%的时,它的最终安全域上线也只有零点几,在这样的一个范围内,我们为了保证设备的安全域属于正常范围内,系统提供最高上限和最低下限的一个安全预警,用来辅导用户进行设置。同进对于数据不全时,也会做到根据时间段进行智能补充,主动式的规避可预见问题。
基线百分比最大范围到100%,也不会因为有上浮比例,造成超过100%,导致永远不告警的问题。对于一个指标的普遍现象,正常使用的安全范围是在25%,空闲时却没有达到5%,这种情况下根据基线的上浮策略设置它的安全范围最高都不到1%,就会产生较多的不必要告警,网强系统针对此现象设置了最高最低上下浮动的安全值,更好的为用户提供便捷的运维服务,从而杜绝无效数据告警,达到个性化配置的需求。
3. 智能数据实时查看,全面分析
智能基线配置后,可以在设备或接口相关的指标列查看详细信息,了解智能基线指标的运行趋势。通过基线和当前数据做一个明显的对比,可以预测后续的运行轨迹,同时也显示昨天的运行数据,进行对比分析,从而更加恰切地评价可用性。细腻的智能动态基线,全方位展示支撑业务设备的运行趋势。当基线指标发生告警后,在展示页面上,会直观的查看故障信息的提醒,方便运维人员快速定位。
4. 故障智能告警,精准定位
当智能基线超过安全范围后,系统将依照网管的告警体系,通过多种方式通知用户,在故障列表中点击进入故障详情时,可查看异常的基本信息,同时提供当天24小时历史趋势,并且自动锁定触发异常故障点,进行数据展示,方便用户快速定位运行趋势中故障点的时间和越值数据。
系统对异常数据进行了特殊处理,阈值违法多次通知,只要是同一个设备的同一个指标的故障异常,在故障模块的列表中进行了合并,避免海量故障数据列表,导致运维人员找不到重点,反而无从下手。
5. 智能数据可视化展现
为日常运维提供更精准的决策依据和趋势分析。用户需在任何异常的连续上升和连续下降的情况中,发现差异和变化趋势,挖掘差异或变化产生的原因。智能基线提供统一直观查看界面,用户根据所需情况个性化定义需要展示的基线趋势图,可在大屏幕或个性化定义页面可视化查看能够直观的查看到业务、设备性能以及网络流量的基线运行趋势,帮助用户时时刻刻监控业务运行情况。
三、价值体系
基于业务真实运行规律的动态基线提供了高效率、高准确度、低配置成本的智能运维方式
智能基线告警采用AI自动学习业务运行的浮动规律,根据业务真实情况自动更新阈值;
智能监控实现自动检测和分析,进行合理有效的故障定位及预测;
通过基线和当前数据,进行对比分析,帮助运维人员预测业务运行情况;
避免产生海量告警,减少用户在故障筛选上的时间,提高故障排查及业务服务水平。