事故集1 - GitLab 运维事故

左耳朵耗子

知乎

相对而言,知乎的comment更为中肯,不偏激。 技术角度而言,

1 PG 4G的复制延迟是存在的,但是要看日常延迟水平。从运维人员的应对来说,这个延迟已经是比较严重的情况;

2 8000个连接降低到2000个连接应该视情况而定,同样,无法知道日常平均以及峰值连接使用情况;

3 Barman 是一个集合备份工具,提高了backup的自动化能力,但是不会对以下场景有效:主库数据库误操作; 主备机schema不一致;流复制延迟等

4 自动化运维和运维流程缺一不可。Checklist 在多数情况下性价比很高。

你可能感兴趣的:(事故集1 - GitLab 运维事故)