实现自动化运维应该做到哪些方面【初稿】

随着互联网的不断快速发展,服务器虚拟化规模不断扩大满足消费者不断的互联网需求,实现运维自动化的目标迫在眉睫。如何实现自动化运维,我们实现哪些技术才算步入自动化运维呢?

我总结了下面的几个内容:

1、事前预警

  在故障出现之前,管理人员应该能在任何时间,任何地点接收到告警信息,并及时处理问题,把故障隐患扼杀在摇篮中。

2、事中恢复

  天有不测风云,即使是再完美的方案也可能有预料之外的故障,为保证在最短时间内恢复业务,关键数据不因故障丢失,我们需要有完整备份方案(包括数据备份和服务器冗余)来应对自如。

3、事后预防

       要实现以上三个要求,并不是一件容易的事情。需要一个经验丰富且高效的运维服务团队,随着我们的业务系统不断增加,业务量的不断上升,成熟的运维服务基本会借助第三方工具,高效的进行软件的部署与维护。对于企业来说,要特别关注两类自动化运维工具:一是IT运维监控和诊断优化工具;二是运维管理自动化工具。

这两类工具主要应用于:

1、监控自动化,是指对重要的IT设备实施主动式监控,如路由器、交换机、防火墙等。

2、维护事件提醒自动化,通过对IT设备和软件应用活动的实时监控,当发生异常事件时系统自动启动报警和响应机制,第一时间通知相关责任人。

3、配置变更部署自动化,服务器规模逐年增大,软件配置参数也需要不断更新调整,如此频繁的更新加上逐年增加的服务器数量,维护工作的压力是相当大的,实现大规模配置自动化并能够自动验证检测,是对运维自动化的一个挑战,减少配置工程师的工作压力。

4、变更测试自动化,对参数修改或业务部署的更新做到测试自动化,实现快速完整可靠的对所有变更进行验证,减少测试人员的工作压力。

5、运维报告生成自动化,定期自动的对系统做日志的收集分析,记录系统运行状况,并通过阶段性的监控、部分时间段内的图形曲线判断趋势走向,分析和总结,定时提供IT运维服务的可用性、性能趋势、系统资源利用状况、用户访问量等分析报告。   

        自动化运维工具能满足我们对运维的要求,提供工作效率,减少出错概率尤其是减少人为错误(运维出错率很大一部分来自人为的误操作),使技术管理更加规范化,标准化(标准化是为更进一步自动化提供条件的关键因素),一个企业公司若能把上面5个方面的工作实现80%,就可以算上步入自动化运维的行列了。随着技术的不断更新发展,还会出现更多更好用的开源技术和工具,大规模服务器少数人员管理将不再是噩梦而是一种艺术。

你可能感兴趣的:(实现自动化运维应该做到哪些方面【初稿】)