智能化运维管理平台的建设思路(01)

根据《关于技术系统运维模式的思考》的设计思路,整个智能化运维管理平台由任务清单,工单协同,知识支撑和绩效激励四大部分组成。

任务清单是日常运维工作的源头。由专家组确定具体的巡检条目,以及巡检条目的组合方式,以一定的频率和顺序对技术系统进行日常巡检。与此同时,支持因特殊业务情况或者运行状况临时增加巡检条目,以确保特殊时期加强巡检频次,提升安全系数。最后,在采集到业务系统的重要故障告警后,需要自动增加相关巡检条目,以应对突发状况。整个任务清单是以CheckLists的方式建立,包含计划完成时间,计划完成内容,实际执行时间,现场执行结果等必要信息。每个条目应有多维度标签对应,便于后期管理。

工单协同是日常运维工作的关键。一旦执行巡检条目发生异常时,应对应生成一条任务工单,该工单根据预设的规则,由巡检人员发送到对应岗位或人员,或者是发回本人直接处理,同时发往对方直属领导,保证直属领导的知情权,对于处理不成功的任务工单,可以继续根据预设规则转发到下一级岗位或人员。任务工单同样以CheckLists的方式建立,包含问题现象描述,紧急处置方案,现场处置结果等必要信息。任务工单与问题巡检条目一一对应,支持增加标签,便于后期管理。

知识支撑是日常运维工作的核心。对于待处理的任务工单,知识库应根据标签和预设的规则将处置规范和流程等专家知识,以及以往处理同类问题或者相似问题的经验呈现在处理人员面前,便于该人员依据现场情况以及相应的专业知识和经验知识做出最佳选择,最快时间解决系统故障。任务工单处理完成后,填写完紧急处置方案和现场处置结果后,该条目将自动归档到知识库成为经验条目,以达到知识库自动增长的目标。处置规范和流程等专家知识也要根据实际情况和业务调整,不断的更新和扩充,提升与对应任务工单的关联度,确保知识推荐更准确。

绩效激励是日常运维工作的保障。建立更为合理的巡检任务清单,及时认真的完成巡检,生成更详细的任务工单,及时有效的处理任务工单,填写更详细的工单处置结果,专家知识的不断更新扩充等等都能促进整个运维巡检流程更好的执行,用绩效手段激励员工朝这个方向努力,推进运维管理平台不断完善。

前序文章

《关于技术系统运维模式的思考》

后续文章

《智能化运维管理平台的建设思路(02)》

如感兴趣,请与[email protected]联系。

你可能感兴趣的:(智能化运维管理平台的建设思路(01))