前言

关于运维大数据,业界已经有不少言论,但往往是众说纷纭,甚者是”管中窥豹“,尚无对运维大数据的一个全面见解。今天,本文就基于自己在运维大数据从业岗位上积累的经验,向大家系统地阐释一下个人对运维大数据的认识,供大家参考。

一、运维大数据产生的背景现状

随着IT运维架构的日趋复杂化,传统的IT运维管理方式更多关注的是对资源故障预警的时效性、监控指标种类的全面性、运维流程执行的规范性等,据了解,现阶段许多企业已借助相应的自动化运维工具来满足日常运维管理需要,且各个工具收集的运行数据和日志记录量每月呈TB级以上的增长趋势,然而现实的情况是,这些工具日常使用到的历史数据还不到10%,多数仅用于周末或月末的统计报表。归其原因,一方面,传统的自动化工具均以轻量级架构为主,其无法支撑T级以上的海量数据分析处理和并行计算,特别是庞大的日志、性能和告警等数据;另一方面,许多自动化工具为保证其查询统计效率往往会对较长的历史数据采用一些压缩策略而丢弃一部分,让很多有用的运维数据无法为未来管理发挥作用。

 

所以,当前已经有不少企业开始思考,如何利用大数据技术分析处理日益累积的各自动化工具产生的运维数据、各业务系统产生的日志数据,对其进行运维挖掘预测,从而改进当前的工作方式,以支撑业务更好地运转。

 

二、运维大数据的获取

要想用大数据技术挖掘运维数据的价值,数据的收集无疑是关键。针对目前各个企业采用的自动化运维管理工具参差不齐,那市场上能够对接不同自动化工具的运维大数据分析平台似乎已变成了”刚需“。数据的收集固然重要,但并不意味着需要分析自动化运维工具产生的所有数据,更主要是着重分析一些实时变化的运行监控数据和服务过程数据。从运维监控层面来讲,一般包括设备性能数据、阈值告警数据、应用日志数据等。

 

设备性能数据: IT运维工具根据实际的运维管理需求,主动轮巡收集的网络设备、服务器、存储、虚拟机、数据库和中间件等IT基础设施的运行指标数据。

阈值告警数据:IT运维工具对监控的设备性能数据超过指标阈值而产生的报警类数据。

应用日志数据:IT设备或应用程序自身产生的操作记录数据,例如Syslog,Trap等。

 

运维大数据分析工具采用对历史运维数据构建的机器自动化学习模型,其算法虽然对抓取的运维数据量和时间范围没有明确的要求和限制,但为了尽量保证结果的准确性,往往是抓取的运维数据量越大、时间范围越长,分析的结果才会更加准确真实。

 

三、如何分析?对运维管理带来什么应用价值?

关于运维大数据分析技术的方法,从监控大数据分析维度,归纳总结无外乎两类分析是最常见和最核心的,一个是数据相关性分析,另一个是数据周期性分析。

 

l 相关性分析(同一时间不同维度)——用于跨业务系统、跨软硬件设备、跨自动化工具等产生的多个指标之间的内在关联性,主要用于运维故障根源挖掘和发现潜在原因。

 

方法应用:告警根源挖掘

不知道大家有没有听说过沃尔玛”啤酒+尿不湿“大数据相关性分析经典案例?我们先姑且不考虑这个故事的真实性,相信听过的人都能体会到这个销售故事的精妙之处。原本看似风马牛不相及的两个事物,经过数据分析却发现有着“惊人”的联系。同样,我们在研究运维大数据分析方法的过程中,发现此分析方法能够帮助运维管理人员有效地找到告警信息发生的根源。

 

怎么理解呢?不妨来看个例子。

A服务器和B服务器在业务上相链接。A服务器的Tomcat,因CPU占用高,告警了;B服务器的Oracle死锁数增长,产生了报警。结果,用大数据相关性分析技术分析历史的运维告警数据却发现这两个看似毫无联系的指标同时告警的概率居然高达90%,更让人惊讶的是,在进一步的相关性挖掘后又发现:往常的告警信息与A服务器Tomcat的CPU同时告警的指标居然还有C交换机的某端口流量和A服务器的URL响应时间,而几率分别为85%和80%。这样,运维人员便可利用运维大数据技术不断实时学习分析的特性,根据这个相关性概率挖掘出告警产生的根源指标问题,进而不断丰富运维关系库、知识库,大大节省了人工排查的人力、物力、财力,也从根本上解决潜在问题、消除安全隐患。

 

l 周期性分析(同一维度不同时间)——用于同指标性能、同故障告警、同日志记录等按周期发生的规律性,主要用于时序挖掘分析和反复事务挖掘。

 

方法应用:指标基线预测

对于这个分析方法,业界很多学者都持观望态度;当然,也有一些算法比较先进的IT运维服务商的运维大数据分析平台利用这一方法衍生出了一些运维大数据应用。比较突出的,就是做指标基线预测,利用大数据自动化学习业务运行规律,生成指标动态预警基线。这时,运维人员可以根据基线进行实时预警,摆脱“经验式”的故障告警模式,提高运维的准确性!

 

同样,也举个例子说明:

之前在和运营商,比如移动和联通的客户打交道的过程中就发现,因为像过年广大用户抢红包等特殊需求,运营商业务量的高峰期主要出现在节假日期间。此种情况下,运维人员如何来保障业务高峰期整个IT体系的稳定呢?他们的做法一般是根据业务部门告知的业务量上涨预估值来判断IT性能增长的百分比。换言之,预估今年春节业务上涨量可能达到50%,那IT运维部门就会通过添加服务器、集群节点等整体配置来提升50%的IT性能,以保障业务高峰期的IT系统的承载力! 很显然,这种“拍脑袋”式的IT运维决策存在很大风险,如果IT投入过少,将容易导致整个业务运营服务系统的崩溃,反之则造成浪费。

 

这个时候,根据运维大数据周期性分析技术运用而生的指标基线预测的优势也就体现出来,通过对历史性的运维数据的学习、分析,预测出未来一段时间(7天)内各项指标值的变化趋势图,运营商运维人员便可根据基线预测知晓节假日高峰期各项IT指标的可能运行形态,进而可以提前采取措施,深层次保障业务系统的稳定性、安全性!

 

大数据的价值挖掘本就不是一个单一、简单的过程,其中内容牵扯甚广,需要在数据规律的学习过程中不断完善。所以,别以为运维大数据价值的挖掘掌握以上两种分析计算方法就能OK,更多情况下,应该是以相关性分析和周期性分析作为基础,两者相互结合***,再贴合运维业务对分析结果进行筛选和可视化呈现…….

 

结语

 

写到这里,我不禁在想一个问题:我们用运维大数据技术或者平台来分析海量的运维大数据,挖掘这些数据的潜在价值,最终的目的到底是什么?其实最关键的,还是数据分析的结论到底是否贴合业务,是否能够对业务平台提供IT基础保障帮助,这实质上是又回归到运维本质问题!