上文中我们提到了HttpDNS
,虽然它比系统DNS更优,但终归还是要做DNS操作。而长连接都是IP直接连接,因此没有DNS相关的开销和耗时。
对于大型App而言,存在繁多密集的网络请求,这中间就会存在非常多次的Http断开和重新连接,浪费了很多时间和带宽。而通过长连接通道的话,则没有这部分耗时,直接传输二进制数据即可,节省了每次连接里Header之类的带宽开销。
对于上面提到的微信消息接收等场景,如果需要客户端主动去轮询,则会频繁发起请求,对于服务器会产生很大的负载压力,浪费带宽流量。而通过长连接,服务端可以主动把消息下发给客户端,做到最高实时性,且节省流量。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xuKLZuin-1650012443119)(https://user-gold-cdn.xitu.io/2019/2/12/168df9c1c2ba7115?imageView2/0/w/1280/h/960/ignore-error/1)]
正常而言,长连接是不会断开的。大家可以自己试一试,两个socket建立连接,只要网络不变、一切正常,那么这两个socket可以一直互相传送数据,不会断开。
但是,在移动网络下,网络状态复杂多变,比如网络线路被切断、服务器宕机等,都会导致长连接中断。除了这些线路异常外,我们需要关注下面几个长连接断开原因:
这个很容易理解,如果我们的App切换到后台,那么系统随时可能将我们的App杀掉,这时长连接自然也就随之断开。
比如手机网络断开,或者发生Wi-Fi和蜂窝数据切换,这时会导致手机IP地址变更。而我们知道,TCP连接是基于IP + Port的,一旦IP变更,TCP连接自然也就失效了,或者说长连接也就相当于断开了。
这里对NAT简单解释下,方便有的同学不太了 Android开源项目《ali1024.coding.net/public/P7/Android/git》 解。当手机连接上网络时,网关会给我们分配一个IP地址,这个其实是内网IP,此时还未真正连接上公网,也连接不上服务器;如果想要连接公网,需要运营商将我们的内网IP映射成一个公网IP,有了公网IP,服务器就能与我们建立连接了。NAT指的就是这个映射过程。
也就是说,运营商会给每台设备分配一个公网IP,类似一张通信证。不过,随着连接网络的设备不断增多,网关负载也会不断加大,这时,运营商就会对一些不太活跃的设备进行公网IP回收了,如果下次这个设备需要连网,那就重新分配一个IP即可。
看似没问题,但实际上,如果我们的App在一段时间不活跃,发生了NAT超时,便会导致我们的公网IP失效,长连接也随之失效了。
DHCP 租期过期,如果没有及时续约,同样会导致IP地址失效。
综合而言,长连接在正常情况下是不会断开的,但是,一旦手机的IP地址失效,这时就不得不重新建立连接了。
上面我们提到了多种长连接断开的原因,那我们应该如何进行优化,尽可能保证长连接不断开,或者及时断开了,也要尽快重连呢?
为了减少进程被杀的几率,在Mars的[Demo代码](()里我们可以看到,它将长连接逻辑单独提取到了一个独立的进程里。这个进程只做网络交互,消耗的内存等资源自然较少,从而减少了被系统回收的概率。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-b3v5JWhb-1650012443120)(https://user-gold-cdn.xitu.io/2019/2/12/168df9c1cb2b320e?imageView2/0/w/1280/h/960/ignore-error/1)]
图片来自[《Android版微信后台保活实战分享(进程保活篇)》](()
进程被杀难以避免,不过可以通过AlarmReceiver、 ConnectReceiver、BootReceiver,达到进程的及时唤醒。
当然,进程保活是一个比较大的话题,而且不恰当的进程保活也会对系统体验造成危害。这里就不深究了。
对于心跳包很多人误以为只是用来定期告诉服务端我们的状态,实际并非如此。
上面我们提到了 NAT 超时,即如果App一段时间内不活跃,会导致运营商那里删除我们的公网IP映射关系,这会导致我们的TCP长连接断开。因此,我们需要通过心跳机制来保证App的活跃度,防止发生 NAT 超时。
在线上运行时,长连接很有可能会由于网络切换之类的原因断开。这时,我们需要尽快发现
长连接断开,并立即重连
。一般有下面几种做法:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tpZGwmf0-1650012443121)(https://user-gold-cdn.xitu.io/2019/2/12/168df9c1e098a862?imageView2/0/w/1280/h/960/ignore-error/1)]
上面我们说了,心跳机制主要是为了防止 NAT 超时,外网IP地址失效。因此,一般的做法就是在NAT失效前,保证有心跳包发出。或者说,客户端应当以略小于NAT超时时间的间隔来发送心跳包。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HTQMfzIV-1650012443121)(https://user-gold-cdn.xitu.io/2019/2/12/168df9c1ff69926e?imageView2/0/w/1280/h/96 《Android学习笔记总结+最新移动架构视频+大厂安卓面试真题+项目实战源码讲义》开源 0/ignore-error/1)]
早期的微信的心跳是4.5分钟发送一次心跳,可以不错的运行。
在尽量不影响用户收消息及时性的前提下,根据网络类型自适应的找出保活信令TCP连接的尽可能大的心跳间隔,从而达到减少安卓微信因心跳引起的空中信道资源消耗,减少心跳Server的负载,以及减少部分因心跳引起的耗电。
因此,在固定心跳机制下,微信又研究了一套动态计算心跳的方案,动态的探测最大的NAT超时时间,然后选定合适的心跳间隔区间去发送心跳包。这里说一下大致思路:
首先,如果心跳间隔越久,产生的负载和消耗也会越小。因此微信采用了自适应心跳
:当找到一个有效心跳间隔后,我们主动去加大这个间隔,然后测试是否能成功,如果不能,则使用比上一次成功间隔稍短的时间作为间隔;否则继续加大间隔,直到找到可用的有效间隔。
那么,如何判断一个心跳间隔有效呢?微信采用的方案是使用固定短心跳直到满足三次连续短心跳成功,则认为这个间隔有效。
探测过程大致为:60秒短心跳,连续发3次后开始探测,90,120,150,180,210,240,270
另外,考虑到App在前后台对于长连接的需求是不同的。因此当微信在前台活跃态时,采用了固定心跳
机制;在前台熄屏态或者后台活跃态(进入后台10分钟内)时,先用几次最小心跳维持长连接,然后进入自适应心跳
机制;在后台稳定态(超过10分钟),则采用自适应心跳计算出来的最大心跳作为固定值。
如果在运行过程中,发生了心跳失败,则进行重连。同时将心跳间隔调整为断线前间隔减去20s,重新走自适应心跳;如果连续5次均失败,则以初始心跳180s继续测试。
对于Android系统而言,为了减少频繁唤醒系统导致的电量损耗,提供了Alarm对齐唤醒
机制:把一定时间段内的多次Alarm唤醒合并成一次,减少系统被唤醒次数,增加待机时间。
而我们的心跳包就是需要在定时结束后自动触发一次心跳包的发送,因此,在Mars里面的心跳时间也是按照Alarm对齐时间来做心跳间隔,减少电量损耗。
对于微信心跳策略感兴趣的话可以阅读文末的参考文献,代码可以参考[smart_heartbeat](()。
长连接传递的是二进制数据,前后端可以自行协商每个字节要存放的内容即可。当然,也可以考虑采用一些通用协议:比如SMTP、ProtoBuf等序列化方案。
参考文章:[《一个基于TCP/WebSockets的超级精简的长连接消息协议》](().
另外,在数据加密方面,可以结合非对称加密算法RSA和对称加密算法AES来对数据进行加密传输。
这一点不是本文的重点,不做过多赘述。
上面讲了长连接的优势,那我们该如何搭建整个长连接通道呢?这里我们以美团的长连接通道为例子进行说明,各大厂的方案也是类似的。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-140FrA9y-1650012443122)(https://user-gold-cdn.xitu.io/2019/2/12/168df9c20a5a6abc?imageView2/0/w/1280/h/960/ignore-error/1)]
上面是一个简图,大体流程如下:
各行各样都会淘汰一些能力差的,不仅仅是IT这个行业,所以,不要被程序猿是吃青春饭等等这类话题所吓倒,也不要觉得,找到一份工作,就享受安逸的生活,你在安逸的同时,别人正在奋力的向前跑,这样与别人的差距也就会越来越遥远,加油,希望,我们每一个人,成为更好的自己。