【干货】百度自动化运维是怎么做的?

百度自动化运维是怎么做的(上)——概念以及标准从何而来?

百度是中国互联网规模最大的公司之一。业内很多人都会好奇,百度是怎么做运维的?接下来让我们一起重溯百度运维之路。

百度运维诞生于2008年,截至目前共打造了三代运维平台,百度的运维技术也经历了web化、开放化、智能化三个阶段。2014年,百度运维在行业率先提出智能运维理念,百度智能运维(IOP)团队也应运而生。

我们一方面,希望将百度成熟的运维理念和运维技术,转化成通用化的运维产品,服务于百度云的客户;另一方面,持续探索AIOps领域,逐渐形成完整的智能化运维解决方案,落地到百度内外的业务和产品,形成自动+智能的理想运维模式。最终,两相结合,助力业务达成高质量、高效率、低成本的运维目标。

本篇主要介绍百度对运维、自动化运维的理解与百度自动化运维评价标准,下篇则根据时间脉络介绍百度的三代运维平台。

注:本文所讨论范围特指互联网服务的运维——应用运维,而非 IT 系统、IDC 等的运维。

什么是运维?

运维,从字面来看,可以将运维分为两部分:

  • 1运:一般的理解是运行,将服务运转起来,以满足用户和客户的需求;进一步的含义还有运筹,即统筹安排资源,提供最优解决方案,以达到效益最大化。

  • 2维:一般的理解是维护,维持并监护服务的运行过程,包括应对服务管理请求和事件;进一步的含义还有维系,或者说连接,特指其起到的承上启下和枢纽作用。

百度百科给出了非常明确的定义:其核心目标是将交付的业务软件和硬件基础设施高效合理的整合,转换为可持续提供高质量服务的产品,同时最大限度降低服务运行的成本,保障服务运行的安全。

在百度,我们对运维的理解,简单概括就是:确保大家高质量、高效率、低成本地运行和维护自己的服务和产品。

什么是自动化运维?

什么是自动化运维,答案有很多。这里,我尝试从另外一个角度,什么不是自动化,来尝试回答下。

  • 自动化是达成目标的手段 

首先,自动化不是运维的最终目标,而是达成目标的手段;通过自动化我们可以提高服务的可用性,可以加速服务的迭代,可以降低服务运行所花销的成本。

  • 自动化是解决方案和工程 

其次,自动化不是将运维人员的工作、行为进行简单封装和串联;而是通过总结、提炼、抽象形成的系统化的解决方案和工程(Engineering)。

  • 自动化实现方法是多样的 

再次,自动化的实现方法,不是一成不变的:一方面,我们运维的服务、我们支持的产品和用户都在不断变化(这就是互联网啊);另一方面,我们的自动化实施对象也在随技术能力的发展而不断演进(从自动化执行命令、到自动化感知故障、再到自动化决策规划)。

  • 实践历程  

百度运维,于2008年正式确立,而百度的运维工程师这个职位,出现得更早些(大概在2004年~2005年),从一开始,百度运维就在朝着自动化这个方向努力。

百度自动化运维标准

接下来给大家介绍的内容,是结合了我们多年的实践经验,并参考了 SAE(美国汽车工程师协会)针对自动驾驶所定义的分级标准得来的自动化运维分级标准。

我们也将其分成了 L1~L5 共 5 个层级,不同层级间的区别主要体现在如下 4 个方面的职能是人工还是运维系统实现的:

  • 执行能力(Execution) 这很容易理解,将指令发送到目的端(服务器、设备等)执行并获得执行结果。执行能力是否由系统完成,是最基本的自动化要求,将其定义为 L1(工具辅助的自动化) ~ L2(部分自动化)。

  • 感知能力(Perception) 包括感知服务的运行状态,感知服务的变更需求甚至故障事件,也可以称作理解。感知能力由系统完成后,结合一些固定的条件规则来决策并执行,可以达成 L3(有条件的自动化)。

  • 规划能力(Planning) 根据其对待处理的需求、待解决的问题的感知,以及对运维对象的认知(知识),自主做出解决方案(规划)并在调度控制执行过程中,根据目标和运维对象的状态反馈来适时调整执行规划。规划能力由系统完成后,并由系统辅助人来进行知识、经验的沉淀以补充系统的扩展性,可以处理全部人类已知的运维工作,即 L4(高度自动化)。从 AI 角度看,可以认为到了这个层次的自动化运维系统具有了一定的弱人工智能。

  • 主动学习能力(Proactive Learning) 主要指的是不依赖人,系统可以自行总结、提炼、抽象形成知识和经验的能力。至此,全部的运维工作都可以交由自动化运维系统处理了,即 L5(完全自动化)。从 AI 角度看,可以认为到了这个层次,称之为强人工智能了。

从全局视角审视自动化运维的若干层次及其之间的关系,可以得到下面这张表格:

下一期内容,我们将介绍百度自动化运维的编年史,详细介绍百度三代运维平台。

 

百度自动化运维是怎么做的(下)——运维编年史!

在本系列的上一篇文章《百度自动化运维是怎么做的(上)——概念以及标准从何而来?》中,介绍了百度自动化运维以及自动化运维标准。在本篇文章中我们将详细介绍百度的三代运维平台,从web化走向开放,最终达到智能的过程。

首先确定的是,百度自动化运维标准中能力等级与能力描述对应关系如下:L0:人工(无自动化)、L1:工具辅助的自动化、L2:部分自动化、L3:有条件的自动化、L4:高度自动化、L5:完全自动化。

 

2008年以前无统一运维平台,这段期间,各团队处于开源、自研方案不一,抽象层次不一,自动化层次也不一的状态,可以认为大多数在 L1,部分还依然完全靠人肉(L0),少量已经踏进了 L2。

2008-2011年第一代运维平台,WEB化

2008 立项开发的第一代运维管理平台(嗯,这就是很多友商经常提起的Noah平台,Noah是百度运维管理平台的统称),标志着百度自动化运维全面迈向 L2。这期间我们的主要工作是研发一个统一的运维平台来代替人工执行一系列运维工作,包括资源的管理(增删改)、服务运行状态的采集、服务变更操作等等。

服务树:资源、机器管理

由运维人员管理的资源有哪些?归根到底是三类:软件、硬件和人;具体讲主要就是服务、机器和权限。

2008年,我们第一次以服务为中心来进行组织和管理资源,也即“服务树”:

首先,通过“公司/部门/产品线”这类客观存在的管理范围,自顶向下地定义树形结构,并且允许通过自定义子树节点的方式来扩展管理多个服务;其次,机器挂载到服务树的叶子节点上,这样就可以通过服务及其从属关系来管理大量的机器;最后,将人员归属到一系列角色权限中,并以服务树来定义其作用域。

在统一到服务树这个模型之前,虽然已经有诸多解决方案和工具了,无论形式上到底是命令行还是一些开源平台,但究其本质上都是通过数组结构来管理若干个机器列表。树形结构在表达归属、层级、继承等关系上的优势,大大方便了其他运维系统组件的设计和实现。

 

监控:标准化采集

基于服务树提供的具有层次和继承关系的机器管理方案,监控系统就方便多了:只要专注于服务状态的采集、呈现和报警策略即可。

第一代监控系统包含机器监控和服务监控两大类。机器监控全覆盖地采集机器的基本信息,包括各类硬件资源的使用情况(cpu、内存、磁盘 io、网络带宽等)。服务监控以探针(probe)的方式检测服务的健康状态。探针支持不同的协议和方式(HTTP、Socket),并且定义了最简单的自定义数据采集协议(基于 Bash 命令行)。

随着产品服务的迭代,对服务的运行状态需要更精细的掌控,第二代监控系统应运而生。监控功能不断拓展,增加了进程级的资源数据采集、基于日志匹配的业务指标统计监控、报警的汇聚与合并。与此同时,我们也在实践过程中提炼同类服务间的共同点,提出了第一版的监控规范,赋予数据特定的运维语义(存活性、资源消耗、业务功能等等)。

上线系统:自动化部署

Noah上线(又称 Noah web 上线、ad-web上线)系统是第一代的自动化部署系统,其核心设计目标是,实现一个通用的平台来替代运维工程师在上线时的手工操作;所以其基本设计思想是翻译上线步骤(备份、下载、替换、重启等文字描述)为一系列标准的操作命令(wget、cp、mv、restart 等)。

2011-2014年第二代运维平台,开放

随着业务规模的扩张,集群规模也在指数型增长,统一的、Web 化的运维平台也遭遇了瓶颈:

众口难调:和业务特点相关的需求越来越离散(有的重效率,有的看重流程的完备性,有的对易用性要求高)再加上需求方越来越多,功能交付排队积压严重。性能差:极端情况下,需要提交一个 K 量级机器的操作,平台响应长达数分钟,甚至还有比较高的错误率。

于是,这段时间,我们增强了运维系统的架构能力,使其可以更方便定制和集成,为全面进化到 L3 级自动化做好了准备,且在变更领域开始向 L3 迈进。

百度名字服务(BNS):一种更简单、高效的服务发现和管理方案

服务树的路径,和文件的绝对路径一样,理论上可以作为服务的一个全局、权威的名字,但因为其路径中耦合了组织和管理上的信息,导致这部分的变化带来的协同修改成本非常高,于是 BNS(Baidu Naming Service)应运而生。

BNS 参考 DNS 的解决方案,类似域名。服务名包含如下两大部分:

名字空间只包含两类和服务管理紧密相关的信息,即服务的物理部署(机房)和业务归属(产品线);

在名字空间下只需要保持名字唯一即可。

这个名字可以稳定、一致地被用于各个系统之间交换服务实例列表(类似 IP 列表)。除此之外,它也可以挂载到服务树上,继续满足组织、行政、权限等管理需求,同时这也保持了和服务树原有模型的向前兼容。

进一步,随着实例标签(Tag)的支持,我们可以以多维度视图的方式来管理服务,终于打破了树形结构的挚肘。

第二代监控系统( Argus):高性能、灵活定制的监控解决方案

Argus基于先前在监控数据应用场景的经验,抽象出来多维度时序数据的模型,设计和实现了相应的存储架构(时序数据库 TSDB)、计算架构(多维度流式聚合计算),打开了运维数据分析的新篇章。

与此同时,为了方便集成,监控采集方式更加灵活(采集接口、数据库直推等),监控配置规则也彻底 DSL 化,使监控的设计可以和开发编码阶段的工作流相结合。

大量的数据,带来了大量的辅助分析工具和数据可视化需求,运维平台和业务运维同学紧密配合,合作研发定制化的监控平台实践逐渐成熟。

第二代部署系统(一键上线Archer):持续部署的瑞士军刀

由于 Noah web 上线只维护当次上线涉及什么文件、什么命令,是典型的“增量”模式,只能看到局部的 diff,不利于服务生命周期内更多场景下的自动化工作开展,诸如:服务迁移、故障处理、测试调研实验等同源环境搭建等。

所以在 2011 年我们推出了它的继任者,Archer 上线,其基本设计原则,来源于当时业界的“持续集成/交付”和“DevOps”思潮:将决定服务运行逻辑的所有代码、配置、数据、运维接口等信息进行同源(仓库)管理并全量发布,基于此简化部署系统的内部设计实现复杂度、提高了二次开发的灵活度,促进了整个构建、测试、上线流水线的自动化。

运维数据仓库(ODW):统一的运维数据管理方案

随着运维工具和平台的持续完善,以及运维服务规模的逐渐扩大,运维产生的数据也变得十分惊人。一方面,这些运维数据大多数都被都随意、分散地存储,而疏于被再利用;一方面,希望分析这些数据的业务或人,很难高效准确地获取所需要的数据。

伴随着Big Data技术的成熟,ODW平台应运而生,我们将监控指标数据、报警数据、上线变更的事件数据、服务管理配置数据等等,集成到一个数据仓库中。并在此基础上,提供开放的数据查询服务和计算服务。一般用户,可以直接在ODW平台,提交数据接入和数据计算的任务,平台可以为用户自动完成计算,并输出结果;而有复杂需求和自有计算资源的用户,也可以订阅所需要的高时效性的数据,自行完成数据分析工作。借助大数据的能力,运维在成本管理、效率管理、用户体验等方向得到全面提升。

 

 

2014年-当前第三代运维平台,智能

2014 年是百度智能运维元年,自此之后,异常检测、多维度分析、关联关系挖掘、根因分析等算法策略逐渐应用,感知、决策、执行的工程框架逐渐定型。我们迎来了 L3 自动化的大规模实施,并开始迈向 L4。

总结

从2008年以前至今,百度运维平台经历了web化、开放、智能三次重大变革,期间百度运维平台研发团队(百度智能运维团队前身)Noah服务树、监控系统、web上线、BNS、第二代监控系统Argus、第二代部署系统Archer、运维数据仓库ODW等,助力百度运维逐步走向智能化。

接下来,我们将详细介绍百度运维平台中的各个技术方向,并将分享最新一代智能运维平台的前沿技术,欢迎持续关注百度云智能运维专栏!若您有其他疑问或者想进一步了解百度自动化运维,欢迎留言反馈!

你可能感兴趣的:(【干货】百度自动化运维是怎么做的?)