阿里智能运维平台的演进:从自动化到无人化(附PPT)

差不多在两年前,阿里内部出现了很多运维中台、研发中台等等,那有没有后台呢?不好意思,我们只有中台,没有后台,会在中台上构建与业务相关的各个前台。目前阿里的业务几乎覆盖了所有行业,有着很多业务线,如果业务线的前台到中台全部都是我们自己去建设,会造成一个巨大的浪费。我们需要去构建整个集团、或是阿里巴巴经济体所需要的统一的平台,避免重复性的建设。

最近我们在思考运维的本质到底是什么,就突然联想到一部名叫《太空旅客》的电影。电影里的飞船装了5000个乘客和大约50多个机组人员,从地球飞往其他星球要飞120年。这意味着整艘飞船必须是无人驾驶的,因为没有人可以活120年,靠人去操控这样一艘飞船根本不可能。所以飞船里有一套运维系统,也就是靠这套系统的运作,整艘飞船才可以飞120年不出故障。

这和我们现在做的运维系统是一样的。我认为运维的本质就是在线,即如何让这种在线的业务能持续不断地运行,满足客户的需求。如果把业务比作一艘飞船,你能否让飞船持续运行?遇到了任何故障或问题时能否自动解决?我觉得这就是运维的作用——稳定性。

而随着业务复杂度越来越高,已经没有办法靠人来运维整个平台和业务了。可以试想,如果要靠人,那需要投入多少人力?当发生问题时,我们人为地去感知问题后排查问题、定位问题,这时业务可能已经挂了很长时间。所以这也是我今天想跟大家分享的,我们基于对运维的理解构建起的智能化运维平台。

阿里运维历程

阿里智能运维平台的演进:从自动化到无人化(附PPT)_第1张图片

阿里的运维和很多公司有相似之处,也经历了四个阶段:

  1. 使用命令行工具运维;

  2. 系统化工具运维;

  3. 自动化平台;

  4. 智能化平台与无人值守实践。

阿里智能运维平台的演进:从自动化到无人化(附PPT)_第2张图片

按照上图这个层次,我们把运维的工作进行划分。对于双十一这样大型的活动,承载这么大的流量就必须要有很多资源。我们每年在准备资源的过程中会花大量的人力和资源,并且持续时间长,大概需要提前半年准备。而在近几年,阿里云发展起来了,等到更加成熟了就会把这个业务往云上搬。我们会先把机器买进来,把阿里云的整个基础设施装起来后,就把阿里的所有电商业务部署到它上面。等双十一结束后,有很多业务其实不需要用那么多机器,我们就把这些资源重新做一个格式化,再还给阿里云,由阿里云做另外的售卖。这也是为什么阿里会做阿里云的原因。因为这种大促的时间比较短,但特别耗资源,且需要大量的运维人员和工程师,所以我们会在资源这个层面做大量工作。

原文链接

你可能感兴趣的:(阿里智能运维平台的演进:从自动化到无人化(附PPT))