Gartner：AIOps「智能运维」真的来了，并且是趋势

摘要

智能运维AIOps平台结合大数据和机器学习功能来支持IT运维。I&O（基础设施和运维/运营）领导人应该开始部署这样的平台，以加强目前的性能监控，但计划需要5年时间来扩展到服务台和自动化系统。

概述

关键发现

在过去的三年里，IT部门分别部署了大数据和机器学习技术，以支持IT运维的监控。然而，在过去的6个月里，企业开始将他们的IT运维导向的大数据和机器学习项目结合起来，并将它们扩展到服务台和自动化。

企业使用人工智能进行IT运维(AIOps)，以增强和偶尔地替代传统的应用程序性能监视(APM)和网络性能监视和诊断工具(NPMD)。

在过去的18个月里，面向IT运营的供应商一直倾向于专注于大数据或机器学习，而收购和发展战略的趋势则导致了两者结合起来的新一代平台的出现。

AIOps技术的稀缺性正在改善，一方面，大学毕业生拥有快速增长的数据科学技术，另一方面，供应商简化了交付AIOps功能的接口。

建议

负责优化IT运维以驱动业务价值的基础设施和运维/运营(I&O)领导者应该：

通过采用侧重于历史数据的增量方法，以增量方式确保部署AIOps功能的成功。

通过选择能够接收和提供日志数据、文本数据、有线数据、指标、API数据和社交媒体派生的用户情绪数据的AIOps平台，确保对IT系统的过去、现在和未来状态的全面了解。

通过选择支持有能力逐步部署IT-运维-面向机器学习的四个阶段的工具，可视化和统计分析、自动模式发现、基于模式的预测和根本原因分析，来深化IT运维团队的分析技能。

战略规划设想

从今天的5%起，到2022年，40%的大型企业将结合大数据和机器学习功能，支持和部分替代监测、服务台和自动化流程和任务。

市场定义

AIOps(见注1))平台是将大数据和人工智能或机器学习功能相结合的软件系统，以增强和部分取代广泛的IT运维流程和任务，包括可用性和性能监视、事件相关性和分析、IT服务管理和自动化。

其核心功能是:

从各种资源中摄取数据

存储获取的数据

提供对数据的访问

在以下两方面上启用数据分析：

数据输入

存储数据访问

分析工作的目标是发现描述或能够生成正在规划的数据集的模式。因此，它们超越了数据本身，这些模式是新的元素，可以用来预测可能发生的事件和出现的情况，并及时向后看，以确定当前系统行为的根源(参见图1)。

图1 AIOps平台使IT运营管理(ITOM)能够持续洞察

来源:Gartner(2017年8月)

市场方向

人工智能技术在过去的20年里断断续续地影响了ITOM的演变(见注2)，而AIOps平台只是最近的一个例子。然而，从2015年到2017年初，有可能对AIOps采取两种截然不同的方式。在第一个方法中，一个供应商将会将对历史数据的访问、索引、存储和访问的能力打包在一起，并以最低程度的自动化程度支持基本的可视化和统计分析功能。在第二种方法中，供应商将提供一种能够自动实时模式发现流数据的引擎。在过去的6个月里，这条线开始变得模糊。

在历史数据管理中拥有强大地位的供应商要么是自主开发的，要么获得了流数据和自动模式发现和预测功能。此外，AIOps平台倾向于扩大他们能够消化的数据类型的范围。特别是，在过去，仅支持记录日志数据的供应商现在正在扩展其范围，以包括度量和连接数据。在Gartner对AIOps的大约500个客户调查中，超过300个客户表示愿意扩大范围。因此，考虑到供需两方面的趋势，Gartner预计，未来5年，大范围的AIOps平台将成为交付AIOps功能的实际形式。

到目前为止，AIOps的功能主要用于支持IT运维流程，以支持监视或观察IT基础设施和应用程序行为。无论是采用机器学习在事件管理环境中更好地重复删除事件，还是在应用程序性能监控环境中将应用程序日志提取添加到基于字节码工具的数据收集中，AIOps平台投资几乎总是以减少IT问题解决的平均时间的能力为目标。然而，在过去六个月中，在针对AIOps主题进行的大约500次调查中，有30次Gartner客户表现出越来越多的使用AIOps功能，通过将大数据和机器学习应用于故障排查来提高对事件和问题的参与度，及CMDB功能，并在开发和生产之间的界面上驱动自动化。换句话说，AIOps功能正在开始扩展，超越了监控，到了ITOM其他领域。

市场分析

到目前为止，几乎没有厂商提供全面的集成的AIOps平台。然而，许多供应商提供了大量的AIOps功能，其中的子集是相互集成的。为了更清楚地了解市场是如何演变的，以及供应商之间的相互关系，Gartner将现有的AIOps能力划分为11个类别:

历史数据管理——允许对日志数据、线数据、指标和文档数据进行存储、索引和持久存储的软件或设备，由于所得到的数据库大多是非结构化的，或者更优秀的，半结构化的，并且存储的数据集本身在高容量中积累，高速变化，并根据不同的格式隐式地构造。这种历史数据管理功能可以被合理地称为“大数据管理”。

流数据管理——允许捕获、可能的归一化和索引的软件或设备，以及在下面提到的一个或多个数据类型的实时呈现。流数据管理软件不仅必须能够展示传入的数据，用户会认为实时，但是实际上还必须提供数据给用户，直接输入的时候不需要持久化数据库的访问。

日志数据摄取——允许从任何软件或硬件设备生成的日志文件中捕获字母数字文本字符串的软件，以及用于访问和分析的数据的编写，并可能为存储编入索引。

有线数据摄取——允许从网络上的源头直接捕获数据包数据的软件，所有的协议和流程信息都应该准备好进行访问和分析，并可能对存储进行索引。

度量数据摄取——允许直接捕获数字数据的软件，可以立即应用获取数据的时间序列和更一般的数学运算。

文档文本输入——允许对人类可读文档进行输入、解析和语法和语义索引的软件。这可能包括使用通常被描述为自然语言处理(NLP)的技术。

自动模式发现和预测——基于以上提到的一种或多种类型的历史或流媒体数据的软件，得出数学或结构模式描述了可能被推断出的新型关联，但并没有立即出现在数据集上。这些模式可以被用来在时间上向前推进，并以不同程度的概率预测事件。

异常检测——使用先前组件发现的模式的软件，首先确定什么是正常的系统行为，然后从正常的系统行为中辨别出偏离。

根源决定——通过自动模式发现和预测组件建立的关联关系网络删除依赖关系的链接，以提供有效干预的方法。

本地交付——一个或多个以上的AIOps能力作为一个本地解决方案的能力。

软件即服务——能够从云中交付一种以上的AIOps功能。

典型供应商

在这个市场指南中列出的供应商并不意味着一份完整详尽的列表，本部分旨在提供对市场及其产品的更多了解。

AIOps平台供应商拥有广泛的能力，并且持续增长，值得注意的是，能够提供某种能力并不意味着能够以有效的综合方式提供能力。

在表1中，我们提供了提供AIOps平台功能的供应商的代表列表。

表1 代表AIOps供应商的能力

来源:Gartner(2017年8月)

市场建议

通过采用侧重于历史数据的增量方法，以增量方式确保部署AIOps功能的成功

I&O团队必须循序渐进地逐步部署AIOps功能，从访问和分析历史数据开始，然后在稍后的时间点访问和分析流数据，以及应用机器学习功能。应该注意的是，历史和流数据分析都需要构建和细化描述能够生成这些数据的IT环境的模型。

AIOps功能的有效部署，甚至局限于以监控为导向的用例，需要一种文化的改变。监控、ITSM或自动化的概念应该根据数据源(而不是技术类型或基础设施层)重新组织它们的领域，从而颠覆了传统上设计的工具、流程和任务的大部分原则。Gartner发现，最好从掌握各种来源的大型持久数据集开始。只有在IT运营团队熟练掌握了AIOps的大数据方面之后，它才会尝试掌握能力类别。因此，在选择工具或服务时，企业应该优先考虑那些允许部署数据摄取、存储和访问的供应商，这些供应商可以独立于剩下的AIOps组件，但仍然支持逐渐增加其他功能。

选择AIOps平台，能够支持广泛的历史和流数据类型

现代IT操作的目标之一是深入了解IT系统的过去状态，并将学习与当前面向总体IT平台的潜在未来状态联系起来。为了实现这一目标，I&O领导者必须选择能够接收和提供广泛的历史和流媒体数据类型的AIOps平台，包括:日志数据、文本数据、有线数据、指标、API数据和社交媒体派生的用户情绪数据。

AIOps平台历来关注单一数据源，如日志数据或线缆数据。不幸的是，无论给定的数据集有多大或频繁更新，对单个数据类型的限制往往限制了对一个人或一个模式发现算法的集合所能获得的系统行为的洞察。这有点像盲人和大象的古老传说。每一个盲人都接触到大象身体的不同部分，得出了一个完全不同的结论，关于这个动物的形状和性质的结论是完全不同的。现代IT系统——以其模块性、动态性和分布式性——需要一个多视角的方法，即使是为了了解正在观察到的事情，更不必说计划他们的未来，或者确定使他们到达目的地的原因。因此，企业应该选择那些能够从多种来源中摄取和分析数据的AIOps平台。

选择提供可增量地部署it操作的四个阶段的工具——面向操作的分析和机器学习

增强IT操作团队技能的关键属性之一是渐进式方法。支持增量部署和支持IT-运维-面向机器学习的四个阶段的工具必须获得更高的投资优先级：

可视化和统计分析

自动化的模式发现

基于模式的预测

根本原因分析

在IT运维环境中部署人工智能非常困难，必须逐步实现。IT运营团队应该通过熟练掌握数据可视化和基本统计分析，开始他们的人工智能之旅。不惜一切代价，抵制一次做这一切的诱惑。只有在这些核心“手工”学科被掌握之后，人工智能或机器学习才会被接近。在这里，他们最初应该尝试允许软件揭示组织大量数据的模式。接下来，他们应该测试这些模式允许他们预测未来事件和事件的程度。只有当团队开始使用根本原因分析功能时，才会接近结束。最后，AI的所有四个阶段都很重要，企业应该选择尽可能多的工具。这些阶段应该以模块化的方式进行部署，但也要确保IT操作能够在学习过程中获得价值。

证据

自2016年6月以来，已经有超过500次的调查涉及AIOps和/或AIOps平台的选择。

注1

AIOps从算法发展到人工智能

在Gartner的词典中，“AIOps”的首字母缩写为“算法IT运维”。然而，在过去的一年中，在Gartner和一般的市场使用中，“人工智能”一词主要指的是将自动模式发现算法应用于大型数据集，其次，尝试模仿一些人类的智力行为，比如语音。由于这些正是AIOps平台的特点，所以我们决定在我们对这个主题的报道中采用这种命名法。虽然算法方法毫无疑问是这个市场形成的基础步骤，但我们现在强调这个领域的“人工智能”术语，以便更好地反映对AI概念的接受和对其潜力的不断增长的投资的快速转变。

注2

AIOps之前

从历史上看，“人工智能”一词已经被用来表示试图模仿人类的知觉和智力操作系统(硬件和软件)。20世纪50年代末，大学和国防部开始进行这样的尝试，到目前为止，已经有两个时期，这种学术和军事工作的成果进入了商业市场。第一个时期从上世纪80年代中后期开始，结束，而不是巧合，结束了冷战。第二个时期开始于过去十年的结束，至今仍有增无减。

在商业化时期,“人工智能”一词被用来作为营销言论涵盖特定的知性与感性操作尝试模仿(例如,计算机视觉系统和NLP系统)和软件系统或硬件/软件栈,优化的两个算法范例,证明有用的模仿工作(基于规则的推理引擎和机器学习),无论该产品是否体现这些模式是针对模仿人类大脑的任何方面。在商业化的第一阶段，第一个算法范式得到了青睐，而第二阶段的购买者和供应商，似乎主要关注第二种模式。

在20世纪90年代早期，围绕基于规则的推理引擎开发的许多知识产权被重新用于支持技术，从而使分布式系统管理的相对新领域得以实现。现在的许多服务台系统，在他们的心里，都是基于规则的推理引擎，直接从1990年到1995年的时间框架下的代码直接下降。分布式管理框架也常常是由人工智能组件构建的。例如，IBM Tivoli管理环境基本上是一种基于规则的推理引擎，编写在逻辑编程语言Prolog中。

当然，近年来，人工智能已经卷土重来，但正如上面所提到的，以机器学习为基础的技术已经占主导地位。值得注意的是，从一个算法的角度来看，几乎没有什么新东西(例如，深度学习算法是在20世纪80年代后期发现的，它们本身只是以前开发的神经网络算法的一个小变体)。最新的是计算和通信成本的降低，这使得1980年代后期的不实际操作变得非常实际。

像许多其他市场领域,ITOM部门现在也试图利用经济和计算上可行的机器学习算法范例的用例,或者建立在基于规则的ITOM功能开发后的第一期商业化或从头开始创建新的纯模式发现系统。正如本研究中所提到的，在其他地方，机器学习在ITOM上下文中被证明是非常有效的，当它与一个大数据能力结合在一起时。无论如何，将人工智能嫁给ITOM并不是一个令人吃惊的创新。这只是一段30年的关系的最新篇章。