Netty线上问题排查记录

1. 苹果推送黑洞问题

每次推送失败,都新建netty连接,但是老连接没有释放掉。导致内存泄露。线程数一直在涨。导出线程日志,发现是nio线程从160上涨到5k左右。

2. redis INCRBY命令超时问题

长时间没有redis操作,导致netty连接被redis服务断开,但是客户端又没有感知到连接断开,依然维持这连接通道。INCRBY时,使用已经断开的连接,一直超时,且没有重新建立连接。为啥没有重连?

使用了lettuce做底层连接池,但是没有配置ConnetionWatchDog。而且即使配了watchDog也需要大约15分钟之后才能重连。原因是lettuce重连机制依赖channelInactive来判断连接失效。但是服务端主动断开连接,有一定几率客户端是不会触发channelInactive事件的,比如服务端和客户端之间的FIN数据包丢失等等。这是要等待系统的tcp协议重试(大概15分钟,重试tcp_retries2次)才会触发连接断开,然后才会去重连。

3. 三方http请求优化

1. 优化连接个数

效果比较明显,能够有效提升请求性能。但是需要注意qps限制,连接个数多,请求量大,可能会导致下游限流。

2. 优化超时时间

超时时间分连接超时,写超时, 读超时。通常都是读超时,对于读超时不能简单的提高超时时间来优化,如果是偶然的网络超时,盲目提升超时时间很危险,反而会降低请求性能。若是下游服务性能问题,可以提高超时时间来优化

你可能感兴趣的:(java,redis,java,nosql)