敬畏线上

“敬畏线上”这是一个阿里老兵告诉我的,当时我还年轻不以为然,渐渐地学的多了,用的多了才发现敬畏线上真的很重要。

前天,一个组内的哥们不小心造成了一个很大的问题,并且很严重。昨天我和组内另一个战战兢兢的上了线,我内心也有些不安,因为好多是配置测试也覆盖不到,还是硬着头皮上了。虽然,一直很讨厌cat频繁的报警一般我都把它关了,昨晚顺手就把它打开了。

今天,凌晨五点我发现手机一直报警,就起来看了一下,果然和昨晚上线的东西有关,又打开APP一看果然出了问题,我本能的怀疑我的配置有问题,立马回滚了我的配置,50多台机器发了好久,发现结果还是不行。我开始看报错发现是“java.lang.NoSuchMethodError:”应该是pom依赖的问题,我开始询问相关同事确定改了pom,我和他商量之后决定先回滚到之前的版本,我发现回滚也失败,发布项已经被做了强制升级。这个时候我看已经六点半了,如果再拖下去到了高峰数据库肯定被压垮。赶紧拉上leader和相关同事确认了昨天修改的内容,发现是有同事写死了pom里面版本的配置,并且他写的那个版本太低了,商量之后先把版本去掉,重新发了一版,线上逐渐恢复。

虽然不是一个很大的问题,但是如果这个问题我早上选择性的忽略掉它那就麻烦了,高峰起来一万多的qps数据库肯定扛不住了,但是如果我昨晚没有开报警怎么办?那还不是要悲剧,昨晚开报警只是我碰巧而已,另外,我还记得当时同时还给我提了pr我也就大概看看没有放在心上,如果我仔细看了也许就发现这个问题了。

总结起来,第一:报警不能关它是最后一道生命线,还能让你及时发现问题,尽早处理问题,降低损失。第二:同事之间相互pr一定要抱着认真负责的态度,认真看你就可能消灭一个bug。第三:线上需要敬畏,一定要好好测试,好好测试,很多时候都是自我感觉良好导致的问题。

你可能感兴趣的:(敬畏线上)