云智慧 AIOps 社区是由云智慧发起,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交流社区。该社区致力于传播 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们共同解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设健康共赢的AIOps 开发者生态。
近年来,随着IT互联网的迅速发展,数字经济与数字生活对人们日常生活的影响也逐渐加深。如下图右下角所示,部分APP已经改变了人们的衣食住行。此外,新冠疫情在全球的爆发也使得全球数字化发展的速度得到了进一步提升。在面对疫情不确定性挑战中,各个行业都意识到了数字化转型对企业的重要性。 下图2021年联合国发布的全球数字经济报告中更是深刻地指出了数字经济以及数字资产对各个国家的影响。
通过云智慧的总结与梳理,从数据的角度,运维数据大致可以分为以下 7 类:
上述数据类型能够支撑以下运维场景:
充分利用运维大数据,能够帮助运维组织更好的支撑企业IT业务的高质量运行。但是,运维大数据与其他大数据并非完全相同,企业发挥运维大数据的价值还需要了解它的特征,以及需要面临的挑战及其应对策略。运维大数据区别于其他大数据的特征主要包括以下方面:
在介绍解决方案前,我们先简单介绍一下智能运维分级成熟度模型,该模型是由云智慧在国内首发的关于智能运维AIOps的成熟度模型。用户可以通过该模型来评估自身智能运维能力所处阶段,并依据分级的标准来针对性的加强自身短板建设,或有目标的规划自身未来的运维建设方向。
我们接下来介绍的云智慧运维大数据方案,在这个模型中处于L3,也就是初步智能化这一阶段。该阶段核心是进行数据层面的打通,将传统的运维组织转化为数据驱动型的运维组织,通过运维数据中台的引入,实现业务可观察,资产可知,状态可视,运维可管以及安全可控等功能。
该方案由四部分技术组成,即采控中心,Kafka、数据平台与算法中心。
该方案主要组成部分均采用分布式架构,具备高并发,高吞吐、低延时的大数据特性。其中数据平台采用了 Flink 和 Clickhouse 两款主流大数据技术,算法中心使用了 Pytorch 和 Tensorflow 两种主流的机器学习框架/平台,并内置了7种云智慧自研的AIOps算法。该方案经过多个行业头部用户验证及洗礼,能够充分应对大规模运维数据的集中采集、处理、分析及应用。结合云智慧自研的数据价值应用,可以充分发挥运维大数据价值,使用户全面掌握系统运行状况,并进行高效运维。方案整体依托之前一章的分析,有针对性的应对运维大数据特征,是一套十分具有特色的运维大数据解决方案。
本章主要从数据的采集,处理,存储,应用4个大数据业务场景来分析智能运维数据平台的解决方案。
数据采集。在数据采集过程中,我们运维组织面对的最大问题就是数据源太多,整个数据采集的工作量非常大,即便是前期可以通过一些监控工具集中采集数据,但许多采集任务仍需要单独管理,这就导致整个采集工作涉及的数据源和任务管理界面很分散。
为了解决上述问题,云智慧专门研发了集中式运维数据采控平台,该采控平台采用可视化集中管控的方式,集成主流的指标、日志、警报等数据的采集技术和内置的采集任务模板,结合分布式的底层架构,最大限度的赋予了用户通过一个系统管理所有采集任务的能力,让用户可以通过一个平台就可轻松地发现数据源、安装采集组件,配置采集任务和监控采集任务的执行情况。真正做到仅需1人即可轻松管理成千上万的数据采集任务。此外,平台还支持基于阈值定义的采集任务自动熔断及自动恢复功能,确保数据采集过程不影响前端正常业务的运行,同时又确保数据采集任务的及时启停。
可以说该方案在数据采集方面的技术设计,避免了多源、多采集端以及监控式采集等运维数据采集手段管理分散,效率低的问题。
除了便于运维人员集中管理大量采集任务外,云智慧的采控平台还有一些其他的设计特点,能够适应用户复杂的IT环境,尤其是在网络方面实现了分布式采集、集中管控的模式。
复杂网络的特点主要聚焦在带宽和跨网络两个方面。针对带宽低的情况,该解决方案为企业提供了边缘计算的能力,通过边缘计算可以先将数据进行一定程度的预处理,再将关键数据通过低带宽网络传回,该方案有效降低了数据传输对网络带宽的要求,同时充分利用边缘设备算力,降低总部运维IT规模,进一步提高运维效能。针对跨网络无法直连的情况,该方案支持分级部署,通过部署Proxy agent来作为采集中继与采控大脑链接,轻松实现跨网络的数据采集。此外,平台还实现了插件化的采控模式,用户可以根据需要在数据源设备或采集集群上部署采集插件,根据实际的环境情况来组合出能效比最高的采控方案。
上述介绍的主要是该方案在数据采集场景中的一些价值和特点。下面来看一下在数据处理场景中,该方案能够给企业带来的价值。
数据处理场景分为广义的数据清洗与数据计算两大类。两大类场景可以分别应对不同的数据处理场景,也可以进行组合使用。
在数据清洗方面,数据清洗引擎采用云智慧自主研发的分布式ETL引擎,可以根据所需处理的数据量扩容处理集群;此外,系统内置42种数据清洗组件,支持绝大多数运维数据清洗场景,企业通过低代码和模块化方式即可管理自己的数据处理任务,还可实时读取样例数据进行ETL任务配置正确性的验证,非常便捷高效。
在数据计算方面,云智慧采用flink作为流批一体的数据计算引擎,并为flink的计算任务编排提供了可视化管理界面,企业可以非常方便的基于flink sql进行批流一体的数据计算任务创建及管理,此外,我们同时提供了Jar任务和SQL任务创建模式,企业可以根据实际需要灵活的选择任务类型。基于jar任务,企业还可以通过该方案轻松的管理flink支持的自定义算子。
数据处理之后,接下来继续来看一下数据存储。上述介绍中将运维数据共分为7类,其中,指标,日志,警报及部分关系数据符合大数据容量大、多样性强的特点,为了满足这些数据的存储,云智慧采用clickhouse作为核心的存储技术。
云智慧根据运维数据的特点,利用clickhouse丰富的表引擎,为企业设计了3种特色表引擎,这三种引擎专为运维数据优化,确保不同数据在IO和压缩比上获得平衡。在确保数据应用效果的同时,降低运维人员维护压力。另外,该方案提供了1种通用表引擎,该引擎对绝大多数的大数据分析场景均有不错的表现,通过该引擎,可以增强数据存储的普适性,为后续的数据分析奠定良好的性能基础。
其次,clickhouse采用全对称的分布式架构,近两年来,该数据库在国内的流式数仓和流式数据分析场景应用中非常活跃。许多互联网头部企业均有采用clickhouse作为自己实时数据分析场景核心技术的实践。其中字节跳动公司是clickhouse最大的用户,目前字节跳动已经建设了上万台节点的clickhouse环境,其中单体最大集群有1200余个clickhouse实例,实际数据存储量数百PB。
在数据应用层面上,该方案结合运维大数据的特点以及业界最佳实践。选型采用了flink和clickhouse作为数据计算,即采用数据查询的核心引擎来应对实时数据监控及实时数据分析场景。
以上这两种技术在我国的互联网头部企业,例如阿里巴巴,腾讯,字节跳动,滴滴,美团等都已经有了了非常丰富的落地实践。应用场景包括实时的指标监控,短视频和直播的用户体验监控、实时计算自定义报警规则,实时数据ETL,实时用户行为分析及运营活动效果等方面。
采用以上两个引擎,主要是因为在数据查询和计算方面的速度都有非常优秀的表现,均采用了大量的技术来优化相关方面的能力。简单举几个例子,flink本身架构设计就是为了实现数据计算的高并发、高吞吐和低延迟,flink自身基于jvm实现了自己的内存管理机制,在内存利用和垃圾回收方面都进行了针对性的优化,同时flink支持多种流式窗口来适应不同类型的流式数据处理,并且flink天生支持有一定流控能力的数据计算模型。而clickhouse的执行器支持向量化计算模式,同时支持多核并行计算模式。而且clickhouse在生成机器码的过程中采用动态代码生成Rntime Codegen技术,结合clickhouse 灵活多样的表引擎,使clickhouse具备目前业内最强的单表数据聚合查询性能。
以上技术特性很好的满足了运维大数据实时性高和时序性强的特点,确保用户及时获得观察结果,或获得统计分析类的决策支持。
该方案主要包含以下八大优势,优势大部分都是云智慧独有的能力,这些能力在很多项目里都为企业带来了较大的运维能力提升。
该案例是某航空信息企业,项目的背景主要是基于业务发展需要建立一个云计算应用平台,该平台是一个容器化的IaaS平台,基于这个平台,企业正在将自身的业务系统向微服务化及容器化方向进行改造和迁移。在这个过程中,企业遇到了微服务与容器架构故障发现、定位与分析困难,效率低下以及运维数据庞杂、割裂,缺少统一数据处理和全局分析能力两大问题。
基于企业面临的问题,云智慧以上述大数据方案为基础,结合自身的立体监控工具集,为企业构建了智能运维平台。截止时间2021年初,云智慧已经纳管了5000多台主机,近400个应用的纳管。在云智慧的平台中接入了69个数据源,建立了59个数据管道以及54个数据表,每天流入3.5TB数据,最终存储400GB数据,并维护了航信两大核心业务的业务模型。
在该项目中,云智慧最终为企业实现了复杂调用链的分析能力、满足企业串联分析的场景以及达到企业利用算法进行智能运维建设的目标3大价值。为企业运维提供了巨大的助力并获得了企业的好评。
近年来,在AIOps领域快速发展的背景下,IT工具、平台能力、解决方案、AI场景及可用数据集的迫切需求在各行业迸发。基于此,云智慧在2021年8月发布了AIOps社区, 旨在树起一面开源旗帜,为各行业客户、用户、研究者和开发者们构建活跃的用户及开发者社区,共同贡献及解决行业难题、促进该领域技术发展。
社区先后 开源 了数据可视化编排平台-FlyFish、运维管理平台 OMP 、云服务管理平台-摩尔平台、 Hours 算法等产品。
可视化编排平台-FlyFish:
项目介绍:https://www.cloudwise.ai/flyFish.html
Github地址: https://github.com/CloudWise-OpenSource/FlyFish
Gitee地址: https://gitee.com/CloudWise/fly-fish
行业案例:https://www.bilibili.com/video/BV1z44y1n77Y/
部分大屏案例: