记一次服务器异常处理

背景:腾讯云监控告警爆发【CDN回源失败告警】,响应码【500】。
起初以为是之前网络问题——跨网回源失败的后遗症,寻求腾讯云工程师提供回源失败的url。通过本机多次访问,无异常情况。持续监控Web服务器日志,并没输出任何异常信息,顿时失去了方向。
后通过层层分析,决定重放链接,看是否能重现异常。由于失败的url有限定时间访问,访问服务器,无法走往有效时间内的代码逻辑判断。
启动本机测试服务器,将时间判断逻辑修改后,重放发现确实有NullPointerException出现,一时激动又语塞,一度以为错误不在服务器侧(结合服务器日志观察),没想到结果却是因为某字段为null,抛出了上述异常,影响范围较广。
由此次事件得到的教训有二:
1、不轻易下结论,一步步分析,直到找到原因修复问题位置,大胆假设,小心验证;
2、完善日志记录,分析为何没有记录到异常情况。

你可能感兴趣的:(记一次服务器异常处理)