记一次因为OSS导致的线上发布延迟问题

2019.5.30晚上11.31,迁出entrance服务发布完成
问题总结:
本次迁出entrance服务后出现延迟问题(延迟在1-4秒)
延时问题经过日志打标定位在OSS上传图片上,修改公网域名为内网VPC地址后修复
QPS压测50会直接导致model-service挂掉,45完好,延时随着QPS升高而升高,45-442ms;20-190ms;30-290ms

本次发布迁出entrance服务后,原GPU服务器释放出15.87%内存(其中model-service重启两次降低1.4%),内存由原94.04%降到78.17%

这里介绍一下怎么排查延迟与性能问题:
最常用的就是用jmeter压测,然后在代码里如下埋点:

long time1 = System.currentTimeMillis();
do some thing...
long time2 = System.currentTimeMillis();
            log.info("do some thing... used time:{}", time2 - time1);

这样不断二分法直到找到耗时在哪里,当然这样的办法比较初级,更通用的是引入美团cat之类的链路日志组件或者切面,通过链路日志定位方法级别的耗时,但方法内耗时还是要用上面埋点的笨方法。

你可能感兴趣的:(记一次因为OSS导致的线上发布延迟问题)