数字化时代,企业运维面临现状及挑战分析解读

云智慧 AIOps 社区是由云智慧发起,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交流社区。该社区致力于传播 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们共同解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设健康共赢的AIOps 开发者生态。

引言

近年来,随着IT互联网的迅速发展,数字经济与数字生活对人们日常生活的影响也逐渐加深。如下图右下角所示,部分APP已经改变了人们的衣食住行。此外,新冠疫情在全球的爆发也使得全球数字化发展的速度得到了进一步提升。在面对疫情不确定性挑战中,各个行业都意识到了数字化转型对企业的重要性。 下图2021年联合国发布的全球数字经济报告中更是深刻地指出了数字经济以及数字资产对各个国家的影响。

数字化时代,企业运维面临现状及挑战分析解读_第1张图片

数字化运维现状与分析

数据分类与应用场景

通过云智慧的总结与梳理,从数据的角度,运维数据大致可以分为以下 7 类:

  • 指标类数据:即服务器运行时当前的CPU利用率、可用内存容量、磁盘IO速率、网络传输速度等;
  • 日志类数据:即各类软硬件输出的记录系统运行过程中某一个时间节点发生的一些事件的文件;
  • 警报类数据:即各类软硬件基于自身定义的错误或故障,发出的各级警报信息,某些类型的警报也是日志的一部分;
  • 配置类数据;更多的是指运维对象的一些相对静态的属性信息。常见的就是保存在CMDB里面的CI项属性信息;
  • 关系类数据:业务系统的横纵拓扑,运维对象之间的关联关系数据。常见的有类似于基础监控中基于snmp等技术发现的拓扑信息、apm输出的调用链信息,基于open tracing规范或用户自己的业务标记生成的日志输出的调用链以及CMDB里面保存的人工生成或基于各类基础监控技术发现的关系数据;
  • 工单类数据:基于日常运维过程生成的各类运维工作数据,例如服务请求工单,事件工单,问题工单,变更工单等等类型的工单数据;
  • 知识类数据:在日常运维工作中积累的IT运维知识数据,如知识库中的通用IT技术知识,工单沉淀的业务运维知识等。

上述数据类型能够支撑以下运维场景:

  • 日常监控:通过IT算法可以对指标数据进行各种智能的阈值设定,减少手动阈值设定和变更所导致的工作量,此外,还可以减少固定阈值可能造成的错报或误报警。与此同时,还可以通过算法识别出日志的常量和变量模式,将某种典型错误的常量模式设置为报警,以丰富告警源,加强系统监控维度。另一方面,还可以通过算法把海量的警报数据进行压缩,并根据一系列规则生成少量的告警事件,从而降低告警风暴,使运维人员集中精力应对关键事件。这一类场景可以称为低配置化IT监控及告警。此外,通过预测算法,可以对指标的走向趋势进行预测,并根据日志的模式组合进行分析,从而通过捕捉某些故障发生之前的特征进行这一类故障的预警。
  • 事件处置及问题管理:通过整合系统间的指标数据、日志数据、警报数据以及关系数据,再辅以可视化技术及AI技术,就可以很好的为用户展现有向无环的IT逻辑调用关系,从而帮助运维人员在发生故障时,快速定位系统故障的首因位置,并结合过往工单和知识数据,一定程度上辅助用户来进行根因分析。并为用户推荐处置策略。
  • 容量管理:通过指标数据的预测进行各类IT资源容量预测,并根据各类数据转化的用户体验指标结合容量信息来进行IT资源利用率的评估。
  • 服务度量:通过系统运行的指标警报等数据来生成系统的用户体验得分,同时可以根据工单数据来统计运维团队的服务效能,更可以结合这两类数据来进行IT服务的价值评估。

数字化时代,企业运维面临现状及挑战分析解读_第2张图片

应对策略对比分析

充分利用运维大数据,能够帮助运维组织更好的支撑企业IT业务的高质量运行。但是,运维大数据与其他大数据并非完全相同,企业发挥运维大数据的价值还需要了解它的特征,以及需要面临的挑战及其应对策略。运维大数据区别于其他大数据的特征主要包括以下方面:

  • 数据源比较庞杂。其他领域的大数据,数据源往往来源于具体的业务系统,但是运维大数据不同,运维大数据的数据源来自各个运维对象,这个数据源的规模就变得非常庞大,而且不同的运维对象数据接入的方式差别很大。例如服务器硬件的相关指标信息就可以来自多种采集方式,例如ipmi、snmp或ssh。面对如此庞杂的数据源,运维大数据的平台必须能够实现对这些数据源的统一管理,要能够灵活的适配和接入数据源。
  • 数据标准非常不统一。不同类型运维对象的指标维度,输出数据的格式以及指标单位等规范大都不相同。因此需要比较灵活的ETL能力来应对复杂的数据处理工作。
  • 强时序性。强时序性主要表现在两个方面。一,强时序性数据的先后关系非常重要,数据颠倒会使数据所表达的含义完全失真;二,强时序性的数据随着时间的流逝,其价值将急剧下降,为了最大程度转化数据价值,强时序性数据必须能够进行低延迟的数据处理和计算,将数据产生到展现的中间时间尽可能缩短。同时,还需要支持数据使用时的时序性,从而将事件依照事件顺序准确的还原出来。
  • 高吞吐,高并发。这个特征很直观,由于运维对象数量多,因此在数据采集时必须支持高并发,又因为本身数据总量大,因此在高并发的基础上,高吞吐也非常重要。因此,运维大数据的基础框架,必须支持高并发,高吞吐的数据处理存储及分析能力。
  • 关联关系复杂。运维大数据应用场景中最重要的部分之一就是运维对象的关系分析,这种关系分析与其他对等的人或物之间的关系运算差别很大,对象间的关系链非常复杂,这就要求大数据平台需要具备能够分析这些复杂关系的能力。

数字化时代,企业运维面临现状及挑战分析解读_第3张图片

智能运维分级成熟度模型介绍

在介绍解决方案前,我们先简单介绍一下智能运维分级成熟度模型,该模型是由云智慧在国内首发的关于智能运维AIOps的成熟度模型。用户可以通过该模型来评估自身智能运维能力所处阶段,并依据分级的标准来针对性的加强自身短板建设,或有目标的规划自身未来的运维建设方向。

我们接下来介绍的云智慧运维大数据方案,在这个模型中处于L3,也就是初步智能化这一阶段。该阶段核心是进行数据层面的打通,将传统的运维组织转化为数据驱动型的运维组织,通过运维数据中台的引入,实现业务可观察,资产可知,状态可视,运维可管以及安全可控等功能。

云智慧智能运维数据平台方案介绍

平台整体技术架构

该方案由四部分技术组成,即采控中心,Kafka、数据平台与算法中心。

  • 采控中心:负责集中采集与管理各个数据源的指标、日志、警报、配置及关系数据。
  • Kafka:作为整体方案的数据管道,用于方案各组件间,以及方案与外部系统的主要数据传输手段。
  • 数据平台:主要负责进行流批一体的数据处理/计算,以及数据存储、数据查询结果输出等工作。
  • 算法中心:主要负责运维相关智能算法的训练,配置以及发布工作。

该方案主要组成部分均采用分布式架构,具备高并发,高吞吐、低延时的大数据特性。其中数据平台采用了 Flink 和 Clickhouse 两款主流大数据技术,算法中心使用了 Pytorch 和 Tensorflow 两种主流的机器学习框架/平台,并内置了7种云智慧自研的AIOps算法。该方案经过多个行业头部用户验证及洗礼,能够充分应对大规模运维数据的集中采集、处理、分析及应用。结合云智慧自研的数据价值应用,可以充分发挥运维大数据价值,使用户全面掌握系统运行状况,并进行高效运维。方案整体依托之前一章的分析,有针对性的应对运维大数据特征,是一套十分具有特色的运维大数据解决方案。

数字化时代,企业运维面临现状及挑战分析解读_第4张图片

方案优势

本章主要从数据的采集,处理,存储,应用4个大数据业务场景来分析智能运维数据平台的解决方案。

  • 分布式采集,集中管控,1人即可轻松管理千/万采集任务

数据采集。在数据采集过程中,我们运维组织面对的最大问题就是数据源太多,整个数据采集的工作量非常大,即便是前期可以通过一些监控工具集中采集数据,但许多采集任务仍需要单独管理,这就导致整个采集工作涉及的数据源和任务管理界面很分散。

为了解决上述问题,云智慧专门研发了集中式运维数据采控平台,该采控平台采用可视化集中管控的方式,集成主流的指标、日志、警报等数据的采集技术和内置的采集任务模板,结合分布式的底层架构,最大限度的赋予了用户通过一个系统管理所有采集任务的能力,让用户可以通过一个平台就可轻松地发现数据源、安装采集组件,配置采集任务和监控采集任务的执行情况。真正做到仅需1人即可轻松管理成千上万的数据采集任务。此外,平台还支持基于阈值定义的采集任务自动熔断及自动恢复功能,确保数据采集过程不影响前端正常业务的运行,同时又确保数据采集任务的及时启停。

可以说该方案在数据采集方面的技术设计,避免了多源、多采集端以及监控式采集等运维数据采集手段管理分散,效率低的问题。

数字化时代,企业运维面临现状及挑战分析解读_第5张图片

  • 灵活采控架构,支持边缘计算,不惧对象环境复杂

除了便于运维人员集中管理大量采集任务外,云智慧的采控平台还有一些其他的设计特点,能够适应用户复杂的IT环境,尤其是在网络方面实现了分布式采集、集中管控的模式。

复杂网络的特点主要聚焦在带宽和跨网络两个方面。针对带宽低的情况,该解决方案为企业提供了边缘计算的能力,通过边缘计算可以先将数据进行一定程度的预处理,再将关键数据通过低带宽网络传回,该方案有效降低了数据传输对网络带宽的要求,同时充分利用边缘设备算力,降低总部运维IT规模,进一步提高运维效能。针对跨网络无法直连的情况,该方案支持分级部署,通过部署Proxy agent来作为采集中继与采控大脑链接,轻松实现跨网络的数据采集。此外,平台还实现了插件化的采控模式,用户可以根据需要在数据源设备或采集集群上部署采集插件,根据实际的环境情况来组合出能效比最高的采控方案。

数字化时代,企业运维面临现状及挑战分析解读_第6张图片

  • 可视化编排,内置丰富算子,提高管道式数据处理工作效能

上述介绍的主要是该方案在数据采集场景中的一些价值和特点。下面来看一下在数据处理场景中,该方案能够给企业带来的价值。

数据处理场景分为广义的数据清洗与数据计算两大类。两大类场景可以分别应对不同的数据处理场景,也可以进行组合使用。

在数据清洗方面,数据清洗引擎采用云智慧自主研发的分布式ETL引擎,可以根据所需处理的数据量扩容处理集群;此外,系统内置42种数据清洗组件,支持绝大多数运维数据清洗场景,企业通过低代码和模块化方式即可管理自己的数据处理任务,还可实时读取样例数据进行ETL任务配置正确性的验证,非常便捷高效。

在数据计算方面,云智慧采用flink作为流批一体的数据计算引擎,并为flink的计算任务编排提供了可视化管理界面,企业可以非常方便的基于flink sql进行批流一体的数据计算任务创建及管理,此外,我们同时提供了Jar任务和SQL任务创建模式,企业可以根据实际需要灵活的选择任务类型。基于jar任务,企业还可以通过该方案轻松的管理flink支持的自定义算子。

数字化时代,企业运维面临现状及挑战分析解读_第7张图片

  • 灵活可配置,高效兼顾运维大数据存储的2个V特性

数据处理之后,接下来继续来看一下数据存储。上述介绍中将运维数据共分为7类,其中,指标,日志,警报及部分关系数据符合大数据容量大、多样性强的特点,为了满足这些数据的存储,云智慧采用clickhouse作为核心的存储技术。

云智慧根据运维数据的特点,利用clickhouse丰富的表引擎,为企业设计了3种特色表引擎,这三种引擎专为运维数据优化,确保不同数据在IO和压缩比上获得平衡。在确保数据应用效果的同时,降低运维人员维护压力。另外,该方案提供了1种通用表引擎,该引擎对绝大多数的大数据分析场景均有不错的表现,通过该引擎,可以增强数据存储的普适性,为后续的数据分析奠定良好的性能基础。

其次,clickhouse采用全对称的分布式架构,近两年来,该数据库在国内的流式数仓和流式数据分析场景应用中非常活跃。许多互联网头部企业均有采用clickhouse作为自己实时数据分析场景核心技术的实践。其中字节跳动公司是clickhouse最大的用户,目前字节跳动已经建设了上万台节点的clickhouse环境,其中单体最大集群有1200余个clickhouse实例,实际数据存储量数百PB。

数字化时代,企业运维面临现状及挑战分析解读_第8张图片

  • 业界最佳实践架构,支撑用户及时获得观察结果/决策支持

在数据应用层面上,该方案结合运维大数据的特点以及业界最佳实践。选型采用了flink和clickhouse作为数据计算,即采用数据查询的核心引擎来应对实时数据监控及实时数据分析场景。

以上这两种技术在我国的互联网头部企业,例如阿里巴巴,腾讯,字节跳动,滴滴,美团等都已经有了了非常丰富的落地实践。应用场景包括实时的指标监控,短视频和直播的用户体验监控、实时计算自定义报警规则,实时数据ETL,实时用户行为分析及运营活动效果等方面。

采用以上两个引擎,主要是因为在数据查询和计算方面的速度都有非常优秀的表现,均采用了大量的技术来优化相关方面的能力。简单举几个例子,flink本身架构设计就是为了实现数据计算的高并发、高吞吐和低延迟,flink自身基于jvm实现了自己的内存管理机制,在内存利用和垃圾回收方面都进行了针对性的优化,同时flink支持多种流式窗口来适应不同类型的流式数据处理,并且flink天生支持有一定流控能力的数据计算模型。而clickhouse的执行器支持向量化计算模式,同时支持多核并行计算模式。而且clickhouse在生成机器码的过程中采用动态代码生成Rntime Codegen技术,结合clickhouse 灵活多样的表引擎,使clickhouse具备目前业内最强的单表数据聚合查询性能。

以上技术特性很好的满足了运维大数据实时性高和时序性强的特点,确保用户及时获得观察结果,或获得统计分析类的决策支持。

数字化时代,企业运维面临现状及挑战分析解读_第9张图片

  • 7大类内置算法,展现数据价值,轻松提高运维效能
    此外,在数据应用层面,该方案更是内置了7大类AIOps算法,通过这些算法能够充分展现运维数据价值,直接实现具体的智能运维场景,帮助企业大大地提高了运维效能。

数字化时代,企业运维面临现状及挑战分析解读_第10张图片

该方案主要包含以下八大优势,优势大部分都是云智慧独有的能力,这些能力在很多项目里都为企业带来了较大的运维能力提升。

  1. Clickhouse SQL 建模可视化:确保用户数据资产全生命周期集中可视化管理。
  2. 分析模型API发布:便于用户对外开放数据能力,面向业务赋能。
  3. 云智慧自研的AIOps应用集:助力运维团队以最终用户视角,面向用户体验运维。
  4. 内置AIOps算法训练数据集GAIA:便于用户开启AIOps探索,逐渐迈入智能运维之路。
  5. 支持数据分级存储及备份还原策略:确保数据安全,支持用户灵活设置数据管理策略。
  6. 支持容器化部署:与用户一同拥抱云原生,简化维护难度。
  7. 内置OMP自运维平台:一键部署,可视化维护,进一步保障平台自运维的便利性。
  8. 云智慧以客户为中心的专家团队:10+年运维经验,1000+各类技术人才,与用户共同成长。

数字化时代,企业运维面临现状及挑战分析解读_第11张图片

案例分享

该案例是某航空信息企业,项目的背景主要是基于业务发展需要建立一个云计算应用平台,该平台是一个容器化的IaaS平台,基于这个平台,企业正在将自身的业务系统向微服务化及容器化方向进行改造和迁移。在这个过程中,企业遇到了微服务与容器架构故障发现、定位与分析困难,效率低下以及运维数据庞杂、割裂,缺少统一数据处理和全局分析能力两大问题。

基于企业面临的问题,云智慧以上述大数据方案为基础,结合自身的立体监控工具集,为企业构建了智能运维平台。截止时间2021年初,云智慧已经纳管了5000多台主机,近400个应用的纳管。在云智慧的平台中接入了69个数据源,建立了59个数据管道以及54个数据表,每天流入3.5TB数据,最终存储400GB数据,并维护了航信两大核心业务的业务模型。

在该项目中,云智慧最终为企业实现了复杂调用链的分析能力、满足企业串联分析的场景以及达到企业利用算法进行智能运维建设的目标3大价值。为企业运维提供了巨大的助力并获得了企业的好评。

写在最后

近年来,在AIOps领域快速发展的背景下,IT工具、平台能力、解决方案、AI场景及可用数据集的迫切需求在各行业迸发。基于此,云智慧在2021年8月发布了AIOps社区, 旨在树起一面开源旗帜,为各行业客户、用户、研究者和开发者们构建活跃的用户及开发者社区,共同贡献及解决行业难题、促进该领域技术发展。

社区先后 开源 了数据可视化编排平台-FlyFish、运维管理平台 OMP 、云服务管理平台-摩尔平台、 Hours 算法等产品。

可视化编排平台-FlyFish:

项目介绍:https://www.cloudwise.ai/flyFish.html

Github地址: https://github.com/CloudWise-OpenSource/FlyFish

Gitee地址: https://gitee.com/CloudWise/fly-fish

行业案例:https://www.bilibili.com/video/BV1z44y1n77Y/

部分大屏案例:

你可能感兴趣的:(技术干货,大数据运维,数字化转型,运维)