线上Bug出现后,我们这些该怎么做(bug review)

上周是不幸的一周。

周六还在愉快玩耍的时候,突然被@,线上出现严重的bug,还是老大大发现的。

原因是因为数据端开发未通过QA测试,私自改了逻辑,重启服务,导致线上出现bug,功能能可用,但数据不可用的情况。

问题已经出现了,那就得去快速的去解决

出现这个问题,我们追本溯源的方法是:

1. 搞清楚上线这个事情的来龙去脉,为啥上线?

2.要解决什么问题,修改的代码逻辑?

3.出了什么问题?

4.出问题后解决方案是什么?

如何让止损

5.待开发定位完成问题,及时的去做代码逻辑的确认

6.快速的线上验证

7.线上加入监控

Bug review模板

【问题描述】

  • 线上XXXX到的部分商品出现XXXX失效。

【问题经过】

  1. 5.18,11:39左右,小王重建索引,重启两台服务,未经过QA验证,直接上线;
  2. 5.18,11:51左右,老李发现问题:XXXXX失效;
  3. 5.18,11:51左右,小王收到反馈的问题,开始排查;
  4. 5.18,12:00左右,小王定位到问题,开始解决;
  5. 5.18,12:15左右,修复完成,开始自测;
  6. 5.18,12:27左右,自测通过,打包上线;
  7. 5.18,13:50左右,QA同步到该问题的消息;
  8. 5.18,16:00左右,QA与开发完成逻辑确认开始验证;
  9. 5.18,17:10左右,线上验证完成,未发现异常情况。

【影响范围】

  1. 影响时长:48分钟;
  2. 期间请求次数245次,每次请求会出现10条数据,理论错误概率为1条,在不点击进入商品详情页的情况下,用户无感知;
  3. 具体影响用户数暂无法统计。

【问题原因】

  • 流程方面:
  1. 开发未遵守测试上线流程
  • 技术方面:
  1. XXXX上mysql库出现大量无效数据与搜索不同(已与小马沟通,他来修改);
  2. 为解决数据不同步问题,重建索引,并重启服务,其中调整了过滤逻辑,出现了bug,导致对过期XXXX过滤无效。

【修改方案】

重新修改过滤逻辑,如下图

线上Bug出现后,我们这些该怎么做(bug review)_第1张图片

【改进措施】

  1. 开发需要严格遵守开发流程;
  2. 增加对XXXXX业务部门进行发布权限控制;
  3. 开发上线前需做code review。

 

你可能感兴趣的:(这个是锅)