自动化运维,让你远离背锅侠

作者:李方,现任“勤智运维”陕甘宁区域工程师,曾参与大量企事业单位、政府行业运维需求调研、规划与实施工作,在运维监控、流程处理等方面有丰富经验。


面对复杂的异构环境,如何及时全面地掌握网络、服务器、数据库、存储、安全等各类设备的运行情况?


面对越来越复杂的业务、越来越多样化的用户需求、不断扩展的IT应用,如何保障IT服务灵活便捷、安全稳定地运行?


 IT运维应运而生。


随着云计算、大数据、物联网、互联网+、IAAS的不断冲击,信息化部门也在考虑如何实现高效率的运维,将繁琐、重复工作简单化、自动化,DevOps自动化运维就显得尤为重要。


DevOps故名思议就是Development和Operations的组合,是过程、方法和系统的统称,主要是为了把软件开发、技术运营和质量保证进行有效的结合,从运维到管理。


运维,就是日常的运行维护,而DevOps是从制定计划到运营终止全生命周期的管理,那么DevOps自动化运维如何实现呢?


了解应用在全生命周期中每一个周期都需要什么样的工作、平台、组织、人员进行匹配支撑,如敏捷管理、持续性的交付、IT服务管理等。


持续性交付是核心,持续性交付的起点是应用需求的形成,重点是应用的高效运行,持续的优化、改进、审查、测试、部署、运营,形成PDCA闭环维度。


传统运维面临的问题
传统的IT运维是将数据中心中的网络设备、服务器、数据库、中间件、存储、虚拟化、硬件等资源进行统一监控,当资源出现告警时,运维人员通过工具或者基于经验进行排查,找出问题并加以解决。但是,随着互联网+时代的到来,移动互联网、云计算和大数据技术得到了广泛应用,从而导致企业所管理的IT架构不断扩大,服务器、虚拟化、存储设备的数量越来越多,网络也变得更加复杂,业务流程越来越繁琐,传统的运维管理也越来越力不从心。主要表现以下几个方面:

自动化运维,让你远离背锅侠_第1张图片



IT环境异构:系统软硬件种类繁多,导致运维人员运维监控压力大,日常工作量繁重。


故障发生后,运维工程师花费大量精力排查问题,无法快速和准确的定位问题,治标不治本。


由于设备数量巨大,日常巡检占用大量时间,导致工作效率低下,事倍功半。


工作机制混乱,面对庞大的IT系统,缺乏有效、自动化的运维流程,缺乏有效的绩效考核依据。


缺少自动运维机制:IT部门人员过少,导致运维压力大;由于误操作,导致无法挽回的灾难;大而全的系统,对运维人员技术能力要求越来越高。


系统内数据非常重要,如果遗漏备份,系统瘫痪/误操作等出现时会导致无法估量的后果。


自动化运维为你排忧解难
自动化运维,可实现日常设备监控、主动发现问题、自动分析定位、基于标准化流程工具规范化处理、通过自动化运维操作工具处理修复等功能,最终实现监管治自动化运维。


勤智运维深刻理解当前运维所面临的问题,根据多年来积累的经验,结合ITSS服务标准、DevOps、Iaas而推出的OneCenter系列产品,包含统一运维门户、多客户端移动运维、运维服务管理系统ITM、服务流程管理系统ITSM、运维自动化管理系统ITAM、运维大数据分析系统ITBA,为各行业信息化提供智能、高效、简单、自动化的IT运维管理解决方案,为企业业务提供强有力的IT支撑和质量保障。

自动化运维,让你远离背锅侠_第2张图片



监控自动化
监控自动化是运维自动化的基础,通过自动化监控平台对各类IT资源(包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用、操作系统、虚拟化等)进行实时监控,出现故障后进行告警归集并处理,解决同设备同指标同告警频报问题。当然,监控自动化的范畴很广,除了监控告警响应,系统也可从业务角度出发,根据业务系统运行情况,判断业务系统健康度。

自动化运维,让你远离背锅侠_第3张图片



数据采集自动化
数据自动化采集是保障运维人员实时了解系统运行状况的前提,系统支持单机DCS和分布式DCS部署方式,以应对不同规模网络架构;系统通过自定义采集策略,周期性采集,主动上报,通过DHS进行数据分析处理,并统一在系统上进行展示。
自动化运维,让你远离背锅侠_第4张图片


日常巡检自动化
运维日常巡检及定期备份是运维人员定期需要完成的工作,而这项日常操作耗时烦琐,针对这一问题,运维管理系统可代替人工完成,从而将繁琐的人工工作自动化,避免人为操作的疏漏,大大提高运维效率。


运维服务管理系统ITM通过系统配置,指定需要巡检的设备、接口及每天的巡检时间和次数,系统按照巡检模板定时巡检并生成巡检报表发送到指定邮箱,无需人工巡检填写巡检报告,让运维人员不论身处何地,也能定时了解系统日常运行情况,减少了工程师标准化、重复的工作,化人工操作为自动化过程,使工程师可以专注于其他更有价值工作。
自动化运维,让你远离背锅侠_第5张图片





设备配置比对自动化
运维服务系统ITM内置标准化的脚本,通过脚本执行,定期下载备份系统配置及文件。系统通过日常备份配置文件比对分析,将变化内容高亮显示,让运维人员一目了然哪些配置被修改过;当配置发生变化后,会第一时间在告警台进行展示。当设备不可用时,通过快速恢复功能一键恢复。  

自动化运维,让你远离背锅侠_第6张图片

自动化运维,让你远离背锅侠_第7张图片




故障定位自动化
 运维服务管理系统ITM提供了一套智能化的故障排查处理机制,立足提高工程师处理效率,灵活的故障策略能适应各种各样的IT变化,帮助工程师在海量的告警中,准确的定位故障、通过自动抓取设备快照,了解当时系统运行情况,快速定位故障,有效缩短排障时间,解决运维难题。
自动化运维,让你远离背锅侠_第8张图片



数据分析自动化
大数据时代,如何从海量的数据中提取有价值的数据,也是当今最热门的话题。大数据分析平台ITBA,通过针对ITM系统所监控的资源设备性能数据和其他业务系统运行日志进行分析,掌握当前业务系统运行情况,了解性能、容量瓶颈问题,根据日常的运行情况及性能信息指标,综合进行预测,防患于未然。

自动化运维,让你远离背锅侠_第9张图片




流程处理自动化
服务流程系统ITSM遵循ITIL标准,建设标准化、规范化的运维服务管理体系。运维服务管理平台的建设遵循ITIL管理思想,通过流程与资产的无缝对接,建立资源运维规范化流程;通过流程化运维方式,让每一次运维都有相应的记录,可随时查看运维历史及运维记录,包括排障记录、变更记录、服务记录等,并且提供表单自定义和流程自定义功能,实现客户运维管理标准化、规范化。在工单处理完后,一键转化为知识库,提高工作效率。


自动化运维,让你远离背锅侠_第10张图片



故障处理自动化
大批量的系统每天会产生海量的告警,很多告警都属于常规性告警,如磁盘空间不足,CPU、内存利用率过高等问题。这些常规性运维,工程师需要逐一去进行派单、恢复处理,但是面对成千上百的设备,工程师往往会力不从心。


勤智服务流程管理系统ITSM可进行策略配置,当产生告警后,根据预先配置的策略,自动生成工单,不同的告警进行不同的工单、派单处理,有效地将服务台和服务请求、事件问题、标准变更发布流程整合,使运维服务过程有统一的任务优先级排序、跟踪和评估 / 审批,运维人员只需要根据工单进行处理即可。

自动化运维,让你远离背锅侠_第11张图片




日常操作自动化
日常备份自动化


在运维过程中,除了日常巡检,另外一个比较耗时的工作就是日常备份。在系统运行过程中,可能会出现一些不可抗拒的因素,比如地震、断电等导致设备损坏,或者人为的误操作导致系统不可用等,为了保证出现问题后快速恢复、确保数据完整和有效性,定期的备份就显得尤为重要。


运维自动化平台ITAM系统内置WMI、Telnet、Ssh、Http等工具,通过编写Shell、Python、Bat脚本,通过可视化流程编排设计器,将运维操作和被管资源相结合,通过定时批量备份数据,减少人工工作量。


自动化运维,让你远离背锅侠_第12张图片



系统优化自动化


针对常规问题,如一些服务器本身负载较大,占用大量的资源导致系统长时间运行后非常缓慢,为了保障系统的正常运行,运维人员每天要做大量的重复工作导致工作效率极低,而且有时候由于自己的操作失误,导致关键数据丢失,带来不可估量的后果。自动化运维系统ITAM,通过内置Shell、Python、Bat脚本,以定时或者人工触发的方式,实现定时优化系统、故障自动化处理、批量配置系统、关键服务启停功能,构建企业自动化运维、从而提到运维效率,降低操作风险。

自动化运维,让你远离背锅侠_第13张图片






大批量配置自动化


运维人员在日常工作中,需要针对设备进行常规性配置,如创建用户、增加磁盘空间、安装程序补丁包等重复性工作。面对数以千计的设备,传统运维方式下,工程师需要逐个登陆系统进行配置,不但效率低下而且极容易出错。


勤智自动化运维平台ITAM通过编写脚本,关联被管设备,定时批量执行,可大大提高运维效率,保障了执行的准确性。

自动化运维,让你远离背锅侠_第14张图片




系统详细记录每台设备的作业执行操作过程,用户可通过WEB端动态查看作业执行过程、执行日志,以及执行结果等信息,让一切运维操作均有据可依、可查、可跟踪。


自动化运维,让你远离背锅侠_第15张图片




自动化运维场景化
OneCenter自动化运维是将运维服务系统、服务流程系统、大数据分析平台、自动化管理系统进行有效结合,全面对数据中心资源设备进行监控,产生故障后自动派单进入ITSM系统进行故障处理,规范运维流程工作,再由ITBA对监控性能数据进行分析预判,掌握系统负载及性能数据,预测未来系统运行态势。根据预测结果,编写Shell、Python、Bat脚本。


通过定期执行脚本,优化系统性能、保障系统运行。


通过流程节点触发,自动处理问题,彻底解放人工工作量。


批量修改配置及增加配置信息,提高工作效率。


结束语
自动化运维是一个大命题,随着互联网+、大数据、服务器虚拟化等技术的发展,网络设备与服务器的运维管理正在发生很大的变化。通过这几年对ITIL的实践,各行业都有了很多的经验。相信随着时间的推移和互联网化的发展,会有越来越多的企业在自动化运维方面有所创新。勤智运维也将结合最新的IT架构、虚拟化等技术,帮助用户一起实现更高效的自动化运维。

你可能感兴趣的:(自动化运维,让你远离背锅侠)