数字化浪潮之下,运维能力也逐渐成为现代企业的竞争力之一。
在过去的数十年间,运维发展经历了数个阶段。从早期的手工运维到标准化运维、自动化运维,再到DevOps、AIOps,追溯整个历程不难发现,运维方式随着技术的不断发展,逐渐迈向智能化。
2016年,Gartner面向运维提供了一个新概念——“AIOps”,中文释义智能运维。即其是以AI等手段为核心,为运维提供更为智能和数字化的支撑。也就是说,把运维从“人”的要素抽离出来,更多的放到“数据”一侧。其中包含的场景更加丰富,包括异常告警、告警收敛、故障分析、趋势预测、故障画像等等。
所谓的AIOps,简单理解就是基于自动化运维,将AI和运维很好的结合起来。
AIOps的落地在多方面直击传统运维的痛点,AI算法承担起分析海量运维数据的重任,能够自动、准确地发现和定位问题,从决策层面提高运营效率,为企业运营和运维工作在成本、质量和效率方面的优化提供了重要支持。
市场方面,全球IT研究机构Gartner预测:“到2022年,将有40% 的大型企业部署AIOps(智能运维)平台。”
可见,AIOps 在企业中的作用正在进一步放大。但事实上,很多企业对于AIOps 能解决什么问题并不清晰,今天我们就以博睿数据的AIOps 的三大场景和算法说起。
博睿数据的AIOps 实践
作为领先的APM应用性能管理厂商,在AIOps实践方面,多年来博睿数据积极拥抱人工智能、机器学习等新技术变革的浪潮,并基于AI和机器学习技术,自主研发了“数据接入、处理、存储与分析技术”核心技术体系,全面布局智能基线、异常检测、智能告警、关联分析、根因分析等丰富且广泛的智能运维功能,并将AIOps能力融入端到端全栈监控产品线,可为传统企业提供强大的数据处理、存储和分析的软件工具,帮助客户整合各类IT运维监控数据,实现数据的统一存储和关联分析,打破数据孤岛,构建统一的IT运维管理平台,让企业的IT运维更加智能化、自动化。
在此基础上,博睿数据还依托完整的IT运维监控能力,利用大数据和机器学习技术持续构建先进的智能运维监控产品,2021年先后推出了搭载了AI能力的新一代APM产品Server7.0和新版的统一智能运维平台Dataview,不断落地智能异常检测、根因分析、故障预测等场景。基于人工智能的能力实现运维监控场景的信息整合、特征关联和业务洞察,帮助企业确保数字化业务平稳运行,并保障良好的数字化体验。
博睿数据AIOps场景与算法
目前,博睿数据在AIOps 技术方面主要落地了三大场景。即智能基线预测、异常检测及告警收敛。
智能基线预测指的是基于历史数据,利用智能算法进行深度学习,对未来一段时间内每个时间点的数值进行精准预测,将预测值作为基线来监控和告警。
如上图所示,对未来 24 小时的数据预测结果用虚线表示, 灰色区域代表正常数据的波动范围。 如果实际值超出灰色区域就代表出现了异常。
IT运维人员在对业务服务数据进行问题检测时,通常会使用动态基线来对实时数据进行检验和衡量。在实时数据与动态基线数据两条曲线的拟合度相似的情况下,则该业务是较为健康的;若动态基线与实时数据离散程度较大,则当前业务存在问题。
目前,博睿数据在智能基线预测方面应用的算法包含实时预测算法、离线算法预测、流式算法预测三种。
异常检测指的是通过历史数据的机器学习来动态预测数据的趋势,无须手动设置阈值,可以根据指标的数据特征自动识别异常。
如图所示,灰色区域代表了正常数据的波动范围, 红色数据点即为异常数据点。
IT运维人员在对应用服务运行状态的检测过程中,通过AIOps的异常检测算法,可以判断图中红色区域的数据即为异常数据,深灰色条状区域为可容忍的业务波动范围。同时,运维人员也可以通过数据集特征数据,对当前时段内数据进行事件聚合,全面分析当前事件对应用的全部影响波动范围。
目前,博睿数据在异常检测方面应用的算法包括静态基线(绝对静态基线 +差分静态基线) 、智能基线+NSigma判别等。
所谓告警收敛即基于多条有关联的告警信息,合并为一条故障,对当前处于故障状态的的警报可能造成的影响进行预测判断,从而实现故障的提前预警,减少冗余告警事件对运维工作的干扰。
目前,博睿数据在告警收敛方面应用及规划使用的的算法包括事件熵、顶点熵、时域关联、文本相似度关联、拓扑关联、NMF+Kmeans等。
为AIOps行业发展添砖加瓦
在现有博睿数据 AIOps 场景、算法、能力的基础上进一步延展和丰富,打磨日志异常检测、根因分析、影响分析、自然语言处理、DIY算法等能力, 用 AI 算法赋能日志管理、一体化运维、应急自愈快恢和算法实验室等业务场景,助力企业加快数字化转型进程。
随着企业业务规模扩大,云原生与微服务的兴起,企业IT架构复杂性呈现指数级增长。而传统的IT运维手段面临故障发生后,查找故障原因困难,故障平均修复时间周期长,已无法满足新的运维要求。因此运用人工智能赋能运维,去取代缓慢易错的人力决策,快速给出运维决策建议,降低问题的影响并提前预警问题就成为了必然。AIOps作为目前运维发展的最高阶目标,未来将会赋能运维带给用户全新的体验。
但需要注意的是,当前智能运维的很多产品和项目在企业侧落地效果并不理想,究其原因可归类为三点:一是数据采集与AI平台割裂,多源数据之间的关联关系缺失导致AI平台缺乏高质量的数据,进而导致模型训练效果不佳;二是数据采集以metric和log为主,导致应用场景较窄且存在数据孤岛问题;三是AI平台能力尚有提升空间。当前落地的场景多以异常检测与智能告警为主,未来需要进一步提升根因分析与故障预测的能力。
因此,未来企业首先要建设一体化监控运维平台,一体化是智能化的基础。基于一体化监控运维平台采集的高质量的可观测数据数据以及数据之间的关联关系,进一步将AIOps的能力落地到一体化监控运维平台中,从而实现问题精准定位与见解能力。
此外,在实际应用中,依据信通院的相关调查,其受访企业中只有不足20%的企业具有智能化监控和运维决策能力,超过70%的企业在应用系统出现故障的10分钟内一筹莫展。
各行业的数字化转型正在改变这一现状,不仅互联网企业,更多传统企业的数字化转型为智能运维开拓了更广阔的市场,智能运维有着巨大的发展空间,这也是博睿数据等行业领先企业发力的大好时机。
提升创新能力,推广智能运维不仅是相关服务商自身发展的要求,也是提升我国企业应用管理和运维水平的使命。
中国企业数字化转型加速,无论是前端的应用服务迭代更新,还是后端IT运维架构的复杂度提升,都在加速培育智能运维的成长。