关于自动化运维的一些思考

无论是Amazon、eBay,甚至是Sears,现在的电商网站都存在一个共同点:用户体验是完全自动化。例如在这些网站上,我们看到的不仅仅是一个可搜索的商品目录,我们还会获得自动推荐、产品比较,简单的点击几下鼠标就可以把商品添加到购物车,或者是在几秒钟内完成退房,而且我们可以追踪物流,直到商品出现在家门口。可以说,没有自动化,就没有在线零售。想象一下,如果我们需要一群屏幕后的人,手动处理每一次用户点击,这将是灾难一般的缓慢,其成本也将是令人望而生畏的。

用户体验如此,掩盖不了另一个尴尬的事实——虽然IT已经自动化了许多企业和消费者相关的应用,但企业IT仍需手动管理这些服务。例如,当服务出现问题时,IT人员必须挖掘大量的监控数据,才能找到原因。另一方面,当他们需要重新配置某些东西时,需要手动进行更改,比方说软件升级、修改LDAP目录权限或者是配置新的云资源。

企业IT为这些手动流程付出了巨大的代价,他们支持的业务也同样如此。除非实现自动化运维,否则这些代价仍将难以避免,因为业务是不能停下来的。

总结来说,实现自动化运维将为我们带来以下益处:

更高的速度和效率

手工过程本来就很慢。在过去,这并不是一个令人特别担心的问题,因为IT本身的步伐较慢。但是现在的情况已经有的变化,我们需要立即响应业务需求,而不是用三个星期启动私有云中的虚拟机,这样的延迟,对于业务来说是令人无法接受的。

更近一步讲,数字化的快速发展是现代企业的动力,它支撑着生产力、收入增长和客户满意度。这正是我们拥抱云计算的重要原因,利用其速度和敏捷行,跟上不断加速的业务需求。但如果运维没有与时俱进,就像把赛车引擎放在马车上一样,这些之前的努力将变得毫无意义。

提高服务可用性

很多企业目前仍在受到服务中断的困扰,最近的一项研究表明,业务中断每年在北美造成的损失高达7000亿万美元。当关键服务质量下降时,生产力、收入和客户信心都会受到影响。这也是许多企业IT依然依赖手工流程来保持服务运行所带来的巨大问题。

但现在,智能自动化技术可以自动识别服务中断的根本原因。这些技术还可以在服务受到影响之前,确定潜在的问题,大大降低了服务中断的频率和持续时间。过去的经验表明,这些技术可以将恢复时间缩短一半,并且在最终用户影响之前可以主动识别超过90%的问题。

提高准确度

手动运维是很容易出错的,即使是精心策划的、经过严格的变更审批程序的工作,最终执行的还是人,而人类是会犯错的。人为因素导致的服务中断占比很高,即使服务没有立即受到影响,仍然也需要检测和纠正错误等工作,导致大量的返工。

通过自动化运维,企业IT可以大大提高准确性 - 减少错误的概率。与人类不同,自动化过程可重复和可靠地执行操作。当然,或许我们不需求要自动化每一项操作或者工作 - 例如,技术上可行,但没有必要自动化“一次性”的变化。然而,当一次又一次地进行相同类型的更改时,自动化大大降低了风险和成本。

增强可见性

当企业使用手动运维时,可见性是一个主要问题。当信息散布在无数的电子邮件和电子表格中时,没有简单的方法来跟踪活动。即使企业IT使用某种记录系统 - 例如票务系统 - 系统仍然依赖于手动更新,导致数据不完整和不一致。因此,测量、分析和改进流程,或符合法规和内部合规要求难以实现。

而自动化运维提高了可见性,例如当事件管理过程自动化时,可以记录下每一步流程。这样可以很容易地分析趋势、识别流程瓶颈,并推动诸如问题管理等主动过程,以防止重复发生事件。如此一来,便达到了服务质量提高、事件量减少、运营成本降低。

更快的创新速率

今天,企业IT正在更多的参与到业务中 - 帮助提高企业速度和竞争力。但实际情况是,80%的IT资源通常还是会被用到日常运维上。此外,预算不是唯一的限制因素,找到并保留高水平的IT人员是非常困难的。即使企业IT有创新的预算,也不可能在平常的业务活动中浪费资源。

自动化不直接推动创新 - 其本质上是将自动化应用于成熟的大批量流程。然而通过消除耗时的手动工作,自动化可以释放大量资源来推动创新。

而且,考虑到企业IT所面临的不断增长的业务需求,自动化运维应该成为IT团队的重要议程。

Author ROBERT WATERS

好雨云帮ACP · 自动化运维

https://www.goodrain.com/autoOM.jsp

自动化运维把周期性、重复性、规律性的工作交给平台去处理,通过标准化、自动化、架构化、过程优化来降低运维成本、提高运维效率。云帮ACP提供从基础架构到应用的全栈自动化运维,安全、稳定、强大。

你可能感兴趣的:(技术分享)