我们的java服务器集群在发布的时候,会出现刚发布的服务器load飙高(超过cpu核数)的问题,过几分钟才能回到低位,分析了好久也没发现什么原因。

    经过查阅相关资料,我们意识到jvm在刚启动时,性能并不是最好的状态,在随后的运行过程中,它会自动分析热点(运行频率高的的代码),并对热点代码进行优化,所以jvm运行一段时间后才能获得较好的性能。这个问题在体量较小的应用中无法体现,当qps达到较高水平时,才会出现这个问题。

    但网上查到的资料也就到这里了,并没有给出解决方案。于是综合自己的思考,以及与某大型互联网公司员工的探讨,发现了这个解决方案:降低刚发布的服务器的权重,让它的相对流量变小,然后逐渐加大权重,给它充分的预热时间。

    具体的实施方案要分应用,比如web应用的负载均衡,我们用到了阿里云的SLB,发布时需要调用SLB的api,逐渐加大权重。

    对于RPC,比如dubbo,需要在provider启动注册自己到zk时加入服务启动时间,consumer取到这个时间,跟当前时间对比,在10分钟内逐渐提高权重到正常值。实践的时候发现dubbo已经在RandomLoadBalance写了这种实现方式,但不幸的是有bug。在我fork的源码中已经修复了该问题:https://github.com/aftersss/dubbo