海量在线交易背后的运维监控体系建设

概要
每天,在携程网上都有巨量的在线旅游交易发生,而其背后有一个相当复杂的软件体系和基础设施在支撑。伴随业务的飞速发展,生产环境的发布越来越频繁,基础架构的变更也越来越密集,网站稳定性面临从所未有的挑战。从去年开始,新的监控体系开始被打造,从人员组织,工具开发,流程定义上都不断改进和磨合。如今监控工具已经能做到先于人发现网站问题,为故障恢复争取了时间,成为提高网站可用性的利器。在此基础上,我们还开发了监控工具的移动端,使得网站支持人员能够方便快捷的查看系统报警和关键监控数据,进一步缩短网站故障时间。本次分享主要介绍携程网的监控体系打造的思路,提高监控有效性采取的一些方法和工具,并展望携程监控平台一体化,移动化的未来发展方向。

个人简介

程国强(Taurus), 携程网站运营系统研发总监, 微博: @陶乐诗, 网名:陶乐诗。拥有15年的互联网开发和运维经验,曾就职于IBM,eBay,Wal-Mart等公司从事网站运维以及系统开发工作。目前任职于携程网站运营中心,作为系统研发部总监,负责网站监控告警及运维工具的开发。在分布式监控系统领域有丰富的实践经验,对于监控系统在大型网站运维体系中的有效应用有深刻的理解。

QCon是由InfoQ主办的全球顶级技术盛会,每年在伦敦、北京、东京、纽约、圣保罗、杭州、旧金山召开。自2007年3月份首次举办以来,已经有包括传统制造、金融、电信、互联网、航空航天等领域的近万名架构师、项目经理、团队领导者和高级开发人员参加过QCon大会。

你可能感兴趣的:(海量在线交易背后的运维监控体系建设)