java定位问题、发布紧急版本验证方案

1、定位问题方案:

① 结合断点 + 日志 + 清除Redis缓存排查问题

2、系统发布验证方案:

① 从日志系统中捞出线上的错误日志,获取请求参数、报错信息

② 部署完成1台机器后,对该机器ip进行单台机器测试,测试之前的错误请求,检查是否还有报错

③ 观察进程运行情况

④ 验证完成后全量发布,通知测试回归,观察天网中web请求和监控大盘、查看是否有报警监控

3、理解系统原理:

① 例如日志系统的目的是链路收集;

② 日志系统的原理是根据日志存放的日志文件位置查询;

③ 日志系统验证的方法是手动触发错误或者上传错误日志到日志系统查看报警情况

4、服务估算流程:

① 第一步、根据产品提供用户量级+峰值时间段的二八原则估算qps;

② 第二步压测到达峰值查看瓶颈定位是出现在cpu、线程、JVM内存;

③ 第三步升级服务器服务配置后再次压测,最终得出服务器数量

5、天网预警流程:

① 第一步、日志中定义模块、大类、方法名、用户key、订单号;

② 第二步、配置预警规则;

③ 第三步:查看日志系统报错日志,对预警日志进行补充

6、中间件预估流程:

① 估算mq、redis基础集群数据量和qps

② 检查mysql索引

③ 慢查询

7、流程:

抓包接口->日志链路->结合代码->数据库问题排查

8、报错问题解决方案

例如查询数据为空的原因:

1)检查数据源:

① 数据在插入环节报错

② 对比数据的创建和更新时间判断数据是否被修改

③ 是否数据被定时任务整条覆盖

你可能感兴趣的:(java)