运维的基本思想

1. 保证系统的SLA:

保障系统99.99999% 的可用时间


2. 系统容灾

  • 机房容灾
  • 程序容错
  • xxx

3. 运维效率

  • PE 脚本自动化
  • 运维白屏化
  • 推动系统架构设计和系统自动容错

4. 资源成本控制

  • 一年一度的预算,需要做好
  • 机器资源水位 35%
  • 架构设计上评估资源是否合理;
  • 通过架构优化来节省机器资源
  • 全链路的机器把控

5.  监控优化(快速发现)

  • 监控覆盖面要全
  • 监控添加效率要高
  • 监控误报要少,避免狼来了   


6.  快速恢复

  • 梳理现在系统的问题、风险点
  • 针对可能出现的问题和风险点,制定对应的应对措施;重要的措施要预先进行演练
  • 问题的沉淀、解决方案的成熟

7.  全链路的容灾、水位摸底、压测


8.  流量入口来源的把控(统一接入平台)

  • 作为一个平台,把控流量入口,最好只有一个或者<3个入口;这样才好统一把控
  • 流量来源的埋点和报表
  • 避免出现因为业务进行系统拆分,如果拆分交把分拆后的成本交给最大受益方    

9. 要走进业务、了解业务、支持业务

  • 业务是根本,所有的技术、工作都是为业务服务的;所以要了解业务,怎么深入都不过分





      

你可能感兴趣的:(运维思想)