网站运维之道漫谈

从可用性到自动化


网站运维之道 关于可用性


所谓网站可用性(availability)也即网站正常运行时间的百分比,这是每个运营团队最主要的 KPI (Key Performance Indicators ,关键业绩指标)。对于 Web 站点来说,传统的那个 24x7 的说法已经不是很适用了,现在业界更倾向用 N 个9 来量化可用性, 最常说的就是类似 "4个9(也就是99.99%)" 的可用性。


网站运维之道 监控与报警机制

多数网站都会倾向于利用开源软件自行搭建监控平台。笔者一向认为,即使网站只有一台服务器,也应该搭建监控工具,这是保障网站能持续改进的基石。有些公司的运维团队喜欢自己写监控工具而不是利用已有的第三方开源工具。这种重复发明轮子的做法笔者认为是不可取的。


网站运维之道 之容量规划

有效的监控能够避免绝大多数问题的扩大化,但是还是做不到防患于未然。所谓的容量规划,也就是一个公司为了满足商业目标的需求而决定生产能力的过程。


网站运维之道 之流程规范

对于相对正规的网站维护工作,所有网站的所有变更必须能做到有记录,可回溯。如果是单枪匹马作战,那么要实现这个目标并不是很难,只需要把好习惯培养起来就成了,可如果要面对一个团队,那么就必须要依赖流程规范来进行约束。


网站运维之道 之知识管理与积累

知识管理(KM, Knowledge Management)是干啥的? 这四个字说来话长,用我的土话说,要把信息沉淀下来并传递给更多的人用。一个人写的文档,团队其他的人要能看明白,要理解,要能拿着这文档做事情。


网站运维之道 之自动化管理

自动化管理是网站规模化之后必须要面对的问题。为什么要自动化?肯定不是为了炫技,针对一个发展中的网站来说,自动化的主要目的还是为了节省维护成本,提升运维成熟度能力。


你可能感兴趣的:(网站运维之道漫谈)