从“救火”走向“防火”

概要
是否在线上发生故障时,开发和运维人员忙成一团?是否觉得已经对线上故障很重视了,但是线上故障依然屡次发生?是否每天不是在“救火”就是在“救火”路上?是否团队的成就感已被逐渐的抹杀?实践证明,如果仅仅是遇到故障才去解决的“亡羊补牢”式的工作方式,就会使“救火”成为常态。因此,我们需要思考应该如何使运维的状态从“救火”变成“防火”,做到防患于未然。 本次主题分享的是针对搜狗商业平台产品迭代速度不断加快、机群规模持续扩大、应用架构日趋复杂的演变过程中出现的各种运维问题,介绍我们在发布管理、监控管理、故障管理等方面进行的探索,以及如何通过搜狗商业自动化平台和运维体系实现从“救火”逐渐到“防火”的转变。希望能对大家有启发或借鉴作用。

个人简介

房秀丽,北京邮电大学软件工程硕士,拥有近十年的互联网运维和团队管理经验,熟悉大中型网站、企业数据中心规划和建设,在业务运维方面有丰富的实战经验,专注于运维自动化、大数据运维、移动互联等方向。2006年加入搜狗,先后负责商业平台业务系统的程序开发、应用运维、系统安全等工作,是搜狗商业运维平台及基础设施的规划者和推动者,目前在搜狗商业平台运维团队担任高级经理。

QCon是由InfoQ主办的全球顶级技术盛会,每年在伦敦、北京、东京、纽约、圣保罗、杭州、旧金山召开。自2007年3月份首次举办以来,已经有包括传统制造、金融、电信、互联网、航空航天等领域的近万名架构师、项目经理、团队领导者和高级开发人员参加过QCon大会。

你可能感兴趣的:(从“救火”走向“防火”)