当传统运维从数据孤岛演变成由大数据与人工智能组成的全栈式运维,运维场景的边界也在服务IT与服务业务之间进行了转换。基于AI、大数据、知识图谱的智能系统,逐渐取代了仅由人来操控规则系统的传统,让运维从成本中心的定位发展成服务中心。数字化转型让IT运维应“云”而生,智能运维备受各界关注。
未来智能运维将为企业高效运营带来什么变化?又将如何发展?让我们看看云智慧智能研究院对智能运维未来的八大洞察。
一、AIOps由算法引领走向价值引领
在AIOps领域,单纯提算法原理或名词的时代已经一去不复返了,算法不仅要在研究侧产生影响力,还要在客户真实的运营场景下,通过解决实际问题,持续为客户带来价值。
对于客户而言,AIOps经过几年发展,已逐渐由概念名词落地到对应的应用场景中,而那些持续关注人工智能算法落地效果的企业,已在生产运营的过程中获得部分实际价值,比如某些知名互联网企业与部分金融企业。可以预见的是,AIOps将迎来价值引领的时代。
在这个新时代里,我们必须不断解决实际落地过程中遇到的挑战,如由发展不均衡导致的不同行业与地域之间对AIOps需求与应用的差异等。在实际落地过程中,企业不仅需要对智能运维的算法场景进行统一的抽象,还需要对不同的业务场景进行算法的适配,以满足不同客户时时在变化的需求,从而真正为客户带来实际业务价值。
二、AIOps由“单场景”走向“多模态”
在云智慧看来,AIOps 最吸引人的趋势之一,即融合多个运维观测量工具的持续需求及使用。目前许多可用的 AIOps 工具平台,一次只能处理一种数据类型,无论是指标、日志还是调用链等。这意味着企业实现AIOps必须使用多个工具并对其观测数据进行组合,才能完成既定任务。
事实上,AIOps诞生的初衷就是解决运维过程中的实际问题,如故障定位、根因分析、故障修复等等,仅依靠单观测量形成的场景无法形成运维价值闭环。例如,单指标异常检测场景,如果只是自动发现指标中的各种异常,并不能最终实现运维价值,真正的价值链路应该是单指标异常检测算法找到问题,根因分析算法定位问题,借助自动化工具解决问题,这样才能形成一条完整的“AIOps价值链”。经过我们对行业实践和客户场景的理解,云智慧将这种多观测综合价值链称之为“多模态”AIOps。
在 2021 年,我们观察到不少融合多个观测量工具平台实施的案例,这或将发展成为一个AIOps显著变化的新趋势,如通过单个应用程序或工具一次处理多种数据类型,允许这些工具查看所有给定数据(指标、日志、事务、事件等),同时分析它们如何相互关联和交互,来帮助减少警报噪音。最重要的是,案例实施结果显示,“多模态” AIOps最终将为企业带来更多的收益,并降低其运行的成本。
三、疫情促使AIOps能力提升
随着新型冠状病毒疫情的发展与影响,及“奥密克戎”病毒的快速发展,给社会的整体防疫工作带来新挑战,驱使政府或企业部署更多硬件和软件以提升数字化管理水平,这不仅对IT系统提出了新的要求,同时也对企业的生产经营带来了新的压力。
不可否认的是,疫情客观上成为了AIOps能力提升的催化剂。在正常情况下,除了少数“抢票”场景,用户对IT系统的响应容忍度一般在“分钟”级,甚至一些低频场景的“小时”级响应,也可以满足基本需求。但在疫情的影响下,传统的低频场景必须迅速升级为高频场景,用户忍耐时间大大缩减,例如城市“健康码”的日常应用,打不开(无响应)就意味着无法工作生活,这使得用户对响应时间有了“秒”级的需求,同时如果不及早对系统进行全链路压测,很有可能在高频需求下“一崩了之”。
因此,政府或企业对 AIOps 实施的需求正在持续增加。他们希望利用算法能力保障IT系统运行安全稳定,并提升管理的整体效率,降低在疫情管控背景下运行的成本。随着对数字化系统建设需求的升级,人们会越来越习惯高水平的数字化管理手段,进一步提升对AIOps落地实施的要求。
四、AIOps将成为数字化转型的重要保障
纵观近年来数字化转型政策为企业发展带来的变化,运维系统在这个过程中面临了诸多挑战。诸如异常告警中的高误报和高漏报、根因分析中对专家经验依赖过高、故障自愈全流程难以打通等现状,都造成了企业整个运维体系自动化和智能化程度不够理想。
随着AIOps在各个细分行业领域中的日益成熟,多种数据与平台的有机融合下,算法与应用不断迭代升级的AIOps或将带给企业更准确的告警与更自动化的根因分析结果,让整个流程自动高效,为更多企业的数字化转型提供重要保障。
五、AIOps将促进 DevOps 工具的发展
日益复杂的基础设施管理和云监控更需要安全的解决方案与保障,云智慧通过为客户提供自动化的数据分析和日常的DevOps操作,发现近年来AIOps的蓬勃发展为DevOps工具升级提供重要保障。
传统的系统监控工具面对数据总量大、数据类型多、数据处理速度快等要求往往无能为力。高级分析工具、人工智能算法和深度学习模型的出现,使DevOps专业人员有效改善了这一现状。AIOps平台可通过快速处理所有数据、执行深度数据分析和自动化日常任务等方式,来帮助 DevOps工程师在运维系统时对其进行监控和管理,进而测试系统性能和安全性。
六、AIOps将推动网络安全的发展
数字化转型的不断深化,使很多组织机构和企业对网络安全问题极其关注。将AIOps合理应用于更多IT软件和安全活动后,企业可通过运用人工智能技术即时辨别问题,甚至在问题发生前就给出预防性措施和建议。
AIOps中的人工智能技术可以支持系统架构的正常运行并赋予数据更多可靠性,比如它可将常规访问与非常规访问或不可靠访问分开, 从而自动阻止任何可疑用户的访问行为。
七、AIOps将具有更高的自动化水平
在AIOps发展早期,可通过AIOps进行自动化的问题类型数量较少,而未来,AIOps的创造性则将扩大可自动化进行处理的问题类型数量。即之前AIOps相关设备仅能够单独处理一种类型的信息,而此后将能够处理大量不同类型的信息。
与此同时,由于当下大多数计算平台都具有较高的计算能力,可以解决不同类型的工作流程问题。于是当企业使用自动化的方式工作时,可大大减轻运维对人力的需求。
八、AIOps与可观察性将互相融合
云服务的应用程序区分客户体验优劣的重要因素是可观察性,通常应用程序和短暂的服务使得我们很难判断到可观察性。通过对应用程序环境的采样和跟踪,我们发现在无服务器的云环境中,必须掌握成百上千不断变化的 API 生成的所有数据,才能从数据中有效提取所需的度量标准,并进行数据追踪。在对原始数据流进行存储后,才能发现问题并对其进行更改或及时回看。
如果智能运维具备可观察性,企业就能够发现复杂云服务网络的实际运行情况,并对直接影响客户体验的问题进行诊断和修复,无论是应用程序代码、用户界面,还是基础设施性能问题均可被发现。
从本质上讲,在未来的运维中有可能诞生的新模式是AIOps工具将启用DevOps工作流。我们将看到更多供应商明确将他们的可观察性消息加入到AIOps消息中,以使其有价值,与此同时也需要AIOps来实现可观察性。
结语
从以上趋势来看,AIOps正在不断突破传统运维的的局限性,其应用的覆盖范围也开始扩展至DevOps与SecOps。与此同时,随着企业不断加大IT科技投入占比,敏锐的创业公司和投资机构已经快速在该领域形成布局,推动着我国智能运维领域快速发展。
根据IDC对2022年中国未来网络十大预测,到2026年60%的中国500强企业将使用AIOps解决方案来推动自动化和工作负载分配决策,包括定义成本和绩效指标,以提高韧性和敏捷性。这也意味着将为中国运维玩家带来更多发展机遇。
云智慧智能研究院
云智慧智能研究院致力于AIOps前沿技术的研究,推动人工智能算法与工业场景的深入融合与落地,目前承担着云智慧核心智能算法的研究和工程化研发工作,并将算法可用、能用、好用作为衡量算法产出的标准。团队拥有80多名成员,大部分来自清华、北大、北航等国内外顶尖顶级高校,曾就职于微软亚洲研究院、快手、字节跳动等知名企业,研究团队95%以上拥有硕士、博士学历。
目前云智慧智能研究院的研究领域包括时序数据异常检测、预测与挖掘,日志模式识别与异常检测,智能告警压缩与降噪,根因分析,时序数据存储等。团队自主研发了首款智能运维领域算法SDK-Hours,其作为核心模块有效支撑了云智慧智能运维产品。
云智慧智能研究院积极与知名研究机构展开合作,联合清华大学软件学院成立了首个“智能运维研究中心”,与中科院软件所在根因分析形式建模达成深度合作,携手推进根因分析在工业智能运维场景中的落地。团队积极参与开源社区,成为Apache 时序数据库Apache-IoTDB Commiter,开源自主研发的运维可视化系统FlyFish并获得中国开源云联盟优秀开源项目奖及Gitee GVP-最有价值开源项目。团队发布并维护智能运维领域公开数据集-GAIA(Generic AIOps Atlas)。
End