给中小型运维团队的建议

作者:Li Gong
链接:https://www.zhihu.com/question/55300424/answer/143878900

如何做得更好

GitLab 在事故报告之后附上了内部总结的若干 TODO 事项,对于其它流程不够完备的中小型团队来说,可以考虑同样做一遍自查。以下是我个人的一些建议:

1、审核所有数据的备份方案,备份频率如何,备份数据放在哪里,保留多久。
2、对于云服务自带的镜像备份等服务,确认是否正确的打开和设置
3、对于自行搭建的备份方案,确认
- 是否覆盖了所有重要数据
- 是否还在正常工作,考虑设置相关 Monitoring 和 Alert
- 相关的 script 和 configuration 进入源码管理
- 最终备份文件考虑存储不止一份(本地、不同的云服务商),使用云服务时最好使用单独的文件存储服务,而非直接放置在VM镜像内
4、定期做灾备演习,检验是否可以正确从备份中恢复,以及此过程需要多少时间和资源。
5、将灾备流程文档化,日常服务器维护流程中的注意事项也写成 checklist(或脚本化)。
6、降低 Production 环境的误操作可能
- 提倡 IAC (Infrastructure as Code)的最佳实践
- 深夜等工作时间外服务器出现状况时,优先考虑基于 CI 的 rollback 等自动化操作,高风险的人工操作尽量放在工作时间,有其它同事可以监督或者支援
- 考虑在 Production 环境的 CLI 界面中增加更多防呆提示(比如设置不同颜色,对于 rm 命令使用 alias 增加保护性检查等)
7、今天数据库运维仍然是一项比想象中更困难的任务,即使对于 GitLab 这样的成熟团队也是如此。对于没有专职 DBA 的创业公司来说,直接使用云服务商提供的数据库服务可能更为安全高效。

你可能感兴趣的:(技术文献)