云智慧 AIOps 社区是由云智慧发起,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交流社区。该社区致力于传播 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们共同解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设健康共赢的AIOps 开发者生态。
随着业务的不断创新发展,敏捷开发、容器化、云计算等新技术的应用越来越多,与此同时,业务系统架构也变得越来越复杂,传统运维工作将会面临更多、更大的挑战。因此,确保 IT 系统的持续健康是保障用户体验和业务发展的基础。在上述背景下,云智慧将运维存在的挑战分为人员、流程、技术三个维度:
基于上述对运维背景及挑战分析,云智慧将企业 IT 运维典型问题归纳总结为以下几个方面:
在上述的挑战下,运维服务管理的理论和工具都有了新的变化。ITIL 4 引入了服务价值体系的概念,它可以为组织提供一个强大的、统一的、以价值为中心的方向。随着企业数字化的转型和发展, IT 服务共享中心正在成为企业 IT 的重要服务支点,如何在工具中体现对共享服务型组织的支撑,成为了新一代ITSM 的重要方向。 在今年的 ITSM 工具关键能力报告中, Gartner提到了一个重要的能力-AITSM,即人工智能在 ITSM 中的应用,例如基于人工智能的虚拟助理机器人,为用户提供对话式自助IT服务;结合知识库实现自动解决方案推荐;基于深度学习的类似工单等应用场景。以上均为新一代 ITSM 的技术发展和应用。
此外,ITIL 4 在新时代客户体验、价值流和数字化转型的背景下,重新提炼了更多的 ITSM 实践,也采用了新的工作方法(如精益、敏捷以及DevOps),也促使 ITIL 跟上了新时代。云智慧在理论和前沿技术的指引下,推出了云智慧数字化服务管理解决方案。
数字化运维的完整场景为当业务用户方提出服务需求时,IT运维组织则会通过各种管理流程和活动来提供服务促进价值共创。 一个企业信息系统价值的实现,30%在于建设,70%在运维,稳定运行才能发挥业务价值。 数字化运维服务管理的核心价值在于标准化、规范化、精细化管理。 从业务用户角度出发,便捷地申请服务请求、申报故障以及提出新需求是他们关注的重点。与此同时,问题解决过程快速,过程可视化,对于业务用户来说也是良好的服务体验。以上过程的实现背后则需依赖于科学的管理流程和运维组织支撑。 从IT运维组织角度出发,规范化、可量化IT服务则是重中之重。因此,运维管理则需要提供服务目录以及考核运维流程指标。此外,配置管理也是整个运维场景中的核心要素,它会为其他流程提供配置项信息数据,支持其他流程运转。例如,在变更管理流程中,配置管理可以提供变更影响分析,帮助评估变更风险和召集变更评审人员;同时,配置管理也为运行综合分析和自动化作业、容量管理等场景提供基础数据。
基于上述的理论知识和用户实践场景,云智慧研发了数字化运维管理系统(DOSM)和CMDB两款产品,从产品维度云智慧将其分为了两个产品线,在实际落地的使用场景中,这两者亦是松耦合关系。
下图架构图从系统技术实现的维度来介绍数字化运维平台的产品能力和功能模块。云智慧将产品所要实现的具象功能,抽象为一个个彼此独立又互为关联的模块,并将这些模块根据业务及数据逻辑进行分层组合。
下图右侧是与云智慧自身产品或第三方产品的集成能力,包括ChatOps机器人、自动化产品、监控工具、门户、告警中心、移动平台等。
IT 共享服务中心是 IT 服务管理的一个重要场景,也是IT集约化发展的一个表现。现如今很多大型企业组织都在将 IT 独立出去,促使其从成本中心走向利润中心,共享中心不再仅仅为一个特定的业务服务,而开始考虑服务成本。以上则必须先通过标准化服务来提升服务质量和效率,降低服务成本。从整个企业组织层面来看,IT共享服务中心可以避免重复建设 IT 服务管理平台和人员投入。对内,统一管理基础架构和资源可以有效地支撑组织业务运转; 对外,提供标准化的服务能力和流程共享(如资源申请,账号开通,业务报障等)可以实现IT服务端到端的价值交付,从而提升数字化体验,以及赋能业务发展。
云智慧数字化运维服务管理产品,基于ITIL 4最佳实践,内置了多个ITIL标准管理流程,包括事件、问题、变更等多个常用流程,从而降低了用户配置难度,让用户能够快速上手实践。此外,产品还支持本地化私有部署和SaaS购买模式,本地化部署现在已完全支持容器化部署,具备了更便捷的部署和服务扩展模式。
以上ITIL中的常用流程均可以在云智慧数字化运维服务平台中开箱即用,以此帮助企业组织高效处理、规范运维过程。下面为几类高频运维场景实例:
对于终端用户来说,系统的易用性是能够推广出去被广泛使用的基础。云智慧数字化运维服务管理平台提供了多渠道服务入。云智慧 DOSM 采用了 H5 技术,实现了所有移动终端和应用一致的用户体验。此外,在移动端云智慧可以支持:企业微信、钉钉、飞书;方便用户随时提交工单同时也方便运维人员能够移动处理和审批工单活动。在PC及Web页面,云智慧 DOSM 拥有云小慧机器人; 同时,云智慧 DOSM 还支持与监控系统、告警中心以及第三方系统的集成,从而实现了自动生成工单的功能。
云智慧在新一代ITSM中人工智能在运维服务管理中的应用也走到了业界的前沿。基于此,云智慧研发了虚拟服务助理(云小慧),云小慧本质上是一个ChatOps工具,支持多轮自然语言对话的机器人。内置在DOSM中,可以让用户以对话的方式直接获取服务或者帮助用户提报工单。 在传统 ITSM 体验中,用户需要非常复杂的流程才可以完成工单提交(通过打开网页->输入DOSM域名->找到需要的服务目录->新建并填写工单->提交工单),而云小慧则通过全新的服务获取方式,让用户与ITSM系统的交互方式有了一个巨大的变革。通过云小慧,用户可以直接以自然语言在对话框中说出需求,随后人工智能则会自动回答或提报新的工单。
IT服务对大多数业务用户来说,是一个黑盒子。业务用户提出需求工单后,无法通过可视化的服务进程跟进工单详情,致使用户体验度较差。因此,云智慧DOSM提供了工单过程的可视化跟踪管理,用户可以了解工单的进度,还可以在工单中与运维支持人员快速进行文字沟通,高效处理工单。
服务台在IT组织中,除了存在物理组织,还有一些是虚拟化的组织,甚至还有机器人服务台。服务台作为企业组织IT服务的统一入口,是一个管家的角色。用户除了可以通过服务台获取IT服务,还可以搜索知识库自助解决问题。云智慧的DOSM内置了一个真实的服务台模块,帮助企业管理用户和呼叫中心的坐席人员。 坐席人员可以通过DOSM的Web端即时或延时响应用户,第一时间解决问题或将无法处理的工单分派到后端的运维支持组织,并反馈结果给用户。此外,坐席人员还可以直接点击聊天信息,根据用户的问题在聊天界面的知识库搜索和推送知识。与此同时,用户方可以在Web页面,或者通过即时通讯工具中的云小慧机器人找到人工服务,关联用户信息并创建工单。
云智慧DOSM支持多级服务目录,可以对IT部门提供的所有服务进行分类目录,用户可以通过目录快速获取服务。部分标准服务请求可以结合自动化技术,实现自动交付,从而提升服务能力,降低服务成本。如标准化的虚拟机申请、网络端口开通、服务启停等。
服务级别协议是服务量化的基础。云智慧DOSM支持灵活的SLA设置,通过测量流程节点间或全流程的耗时,来确保服务在约定的时间里完成。此外,DOSM的逾期提醒和升级处理机制,也进一步保证了服务能够按时交付。
ITSM管理工具众多,市场中有超过400个不同的产品。从最基础的帮助台工单工具到高级的自动化的工具,都号称能支持用户自定义流程设计,而各工具间也有较大差距。流程引擎的灵活性,表单模板的易用性,支持的字段类型是否支持触发器,外部接口调用等功能,都决定了用户在使用工具自定义管理流程的可行性和难易度。在DOSM2.0版本中,云智慧将表单设计模块的组件进行抽离,支持通过拖拉拽的方式在表单画布上进行设计,提升了产品的易用性;此外,云智慧DOSM基于Activiti流程引擎,支持分支流程、并行流程、子流程等多类流程;内置10+表单字段类型,支持字段分组、字段联动以及工单属性页配置,全面满足工单定制要求,可以快速帮用户实现新流程的落地。
知识库在ITIL中是一个重要的模块。知识库可以在管理中持续发挥价值,帮助用户自助服务,提高服务台首问解决率,降低整体运维的人员成本,沉淀运维组织经验。 云智慧DOSM内置的知识库,可以结合智能机器人和即时服务台,帮助用户尽快解决问题; 知识库本身也支持了富文本内容编辑,知识的导入导出,知识的审核、发布流程,确保知识的准确性。
针对流程的KPI和日常管理的运维指标,云智慧DOSM除了提供开箱即用的ITIL常规报表之外,还支持用户进行自定义报表,指定数据源,报表字段和展现方式,进行自定义,同时也支持对报表进行排期,定期发送报告。
CMDB是指包含每个配置项及配置项之间重要关系的详细资料的数据库,管理所有配置项及其关系,以及与这些配置项有关的事件、问题、变更和发布等信息。CMDB作为IT服务管理里面的核心配置库,会为其他流程为其提供信息,如变更管理流程提供的有关IT组件变更的信息、采购流程提供的有关IT组件采购信息。此外,CMDB也为自动化操作提供目标信息,并记录执行历史。
云智慧CMDB可以支持数据联邦、调和和同步;灵活的信息模型定义;支持自动发现;具备完善的API调用接口,进行数据共享。
所有CMDB所管理的资源一定要有使用场景是建设CMDB的核心逻辑关系。要想各种场景被正确执行,就会要求CMDB所提供的资源是准确且实时的;这样运维人员才会有动力去努力维护和更新CMDB的数据,以确保运维的工作能够顺利开展。
在做故障分析过程中,需要根据配置项管理所提供的基础架构配置方面的信息分析问题和已知错误与配置项之间的关系,并根据配置管理数据库中的信息对事件和问题进行调查和分析,如通过比较基础架构的实际配置与配置管理数据库中的被批准的配置来发现基础架构的缺陷。此外,如果企业需要做大屏数据展示分析,CMDB可以提供数据支撑。
当下有很多企业组织在建设CMDB时最终效果均不是很理想,甚至到后来会慢慢废弃。这其中最大的一个问题就在于配置项数据的准确性不够。数据不准确,CMDB使用价值就越来越。而云智慧主要靠自动发现、流程控制、和数据审计来解决数据鲜活、准确的问题。
DOSM对接告警系统实现了基于告警事件的自动以及手动创建工单,使告警处置工作更加流程化与标准化。 同时云智慧的产品支持在创建告警工单时自动生成告警详情并自动关联配置项,大大提高了故障根因分析和故障处理的效率。在多数情况下,监控工具出来的告警并没有业务信息、管理员等重要数据,这些都需要CMDB的数据进行补充和丰富,这样出来的告警信息能够帮助运维人员更快速地了解告警的严重程度,从而更快速地处理故障。
云智慧运维咨询涵盖运维各领域体系建设与专项咨询。围绕ITSM落地的三驾马车( ITSM&CMDB管理咨询、ITSM&CMDB工具以及实施交付)打造了全套、全流程的解决方案与服务体系。通过与业界顶级合作伙伴一起完成新一代ITSM工具 ——DOSM&CMDB的落地与交付实施。此外,云智慧提供全面的解决方案,以ITSM、CMDB咨询服务为核心服务体系,在顶层给予企业客户专业指导。与此同时,云智慧融合了DOSM、CMDB等标准产品,将顶层规划融合产品进行落地实施,从而将理念转化为现实。
云智慧可以提供一站式ITSM管理咨询服务,主要包含以下几方面:
云智慧已开源数据可视化编排平台 FlyFish 。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现符合自己业务需求的炫酷可视化大屏。 同时,飞鱼也提供了灵活的拓展能力,支持组件开发、自定义函数与全局事件等配置, 面向复杂需求场景能够保证高效开发与交付。
点击下方地址链接,欢迎大家给 FlyFish 点赞送 Star。参与组件开发,更有万元现金等你来拿。
GitHub 地址: https://github.com/CloudWise-OpenSource/FlyFish
Gitee 地址:https://gitee.com/CloudWise/fly-fish
万元现金活动:http://bbs.aiops.cloudwise.com/t/Activity