运维这件苦差事

运维真是一件苦差事,在没有做到自动化之前,你时刻都得提心吊胆着。

千台机器共舞

我们的服务跑在ECS上,得益于阿里的生态,我们根本不需要搭建zabbix之类的监控工具,三五个同学建个内部群,然后在群内接入个钉钉机器人,监控目标机器的各项资源。纵然千台节点,依旧不亦乐乎。

今天发生了什么

即使这样,也只是做到了监控,如果发生了问题,还是要白屏或黑屏去处理的。就在今天早上6:50,应该是好梦的时节,却发生了磁盘报警,使用率直逼100%。

接了个组内其他同学的电话,就赶紧爬起来开电脑。排查原因,寻找对策,着手解决。等一切忙完一时间,已经7:40了。

去了趟卫生间,路过阳台看到朝阳已经爬上了护栏,在远处32层写字楼顶部,红光四射,就像一颗腌了许久而流出红油的鸭蛋黄。嗯?这才意识到已经快到端午节了。

时刻准备着

运维线上服务的特点就是,你永远不知道下一秒会发生什么,所以只能7×24h保持联系状态,时刻准备着登录机器、解决问题。可能是周末晚上你正在吃烛光晚餐时,也可能是凌晨两点你的春宵美梦中。

在其位谋其政,既然选择了DevOps,当然要负责到底,也只有这样,对运维才有深刻的认识吧。

只是在此之前,没事多烧几柱香,祈祷不要夜夜爆肝吧。

你可能感兴趣的:(运维这件苦差事)