SRE读书笔记——第一章

第一部分 从sysadmin到服务管理


        IT时代最初系统管理员(sysadmin),系统管理员负责将软件组合到一起提供服务,并负责系统的升级工作.但是随着系统复杂度的增加和事务的增加,系统管理员开始承受应对部端增多的事件和升级等工作.因为系统管理员需要与产品开发人员不同的技能,开发人员和系统管理员被分成两个团队:"development"和"operations"或"ops".

        ops和development的分工广义上造成了两种陷阱:直接费用和间接费用.直接费用清楚明了.运行服务依赖于人工修改配置和处理事务,随着业务的增长变的价格昂贵,因为团队随着业务的产能的增加而增长.间接费用是微妙的,但是相比于直接费用,间接费用对于这个组织来说要比直接费用高.这种费用随着两个团队完全不同的背景,技能和其他诱因等原因而增加.他们对相同的事务的看法会不同,因为他们看待问题的角度不同,他们对技术方案的风险和可能性有不同的假设,最终导致一些病态的事情发生.

        传统运维团队与开发团队往往以冲突告终,因为运维团队更关注软件到生产环境的速度,而开发团队更关注上线的新功能是否能被用户接受,因为运维人员想确保服务不会被无意中断.因为大多数的服务中断都是由于新配置,新功能等引起的,这两个团队的目标从根本上就存在分歧.

第二部分 Google服务管理方法:Site Reliability Engineering


        冲突并不是提供软件服务中不可避免的.google的做法是雇佣软件工程师来运行自己的产品并负责开发系统完成大部分系统管理员需要完成的工作.

你可能感兴趣的:(SRE)