0215| 部署

晚上需要做一个线上系统的升级,动作有点大,需要停机一小会儿。

运维是个苦活儿。作为一个业余兼职的运维,工作这么些年来,线上系统的部署也经历了很多次,大大小小的问题也出过很多。比较严重的事故是有次半夜给某个省的宽带接入系统升级,我脑子一糊涂改错了一个配置,把拨号的验证给去掉了,也不会写入数据库。造成的后果就是全省人民宽带上网可以随便拨,怎么玩都不扣费,一直到第二天下午才发现。还好,损失不算大。对于运营商来说他们最在乎的是用户投诉,只要没有投诉就不算严重的问题。

还有一次是做游戏的时候,某次我在维护的时候不知怎么的脑子一热,一不小心就把整个数据库给删了……给删了……删了。虽然有前一天的备份在,但这大半天玩家们的辛苦就彻底白费了。遇到这种问题只能是给玩家赔礼道歉,然后给所有玩家都发点补偿,并且辛苦客服GG在网页上耐心的给玩家们解释。

事实证明只要是靠人去执行命令的操作,总会出点小错。特别是在连续工作若干小时,身心疲惫的时候。就算战战兢兢不犯错误的把系统部署完了,也可能在别的地方出点什么岔子。我唯一一次在马路上制造的交通事故就是某天半夜维护完数据库之后,一直工作到第二天下午两三点钟才开车回家,然后就稀里糊涂地奉献出了人生第一次的剐蹭。把别人的车蹭了之后我整个人都傻掉了,刹车都忘了踩还往前慢悠悠的开了几步。然后从对方车里气势汹汹地走出三个武警,把我吓了一跳,以为他们要过来揍我。

时光流转,运维技术也日新月异了。特别是随着devops的兴起,持续集成持续交付流水线越来越成熟,包括微服务架构也都催生着部署的自动化。一天几十次上百次部署早已不是什么新鲜事儿,这时自然也就不用担心误操作的问题了。只是这依赖于整个基础架构的完善搭建,还是需要付出很多努力才能实现。

你可能感兴趣的:(0215| 部署)