一、TCP连接的相关说明
①使用TCP协议时,会在客户端和服务器之间建立一条虚拟的信道,这条虚拟信道就是指连接,而建议这条连接需要3次握手,拆毁这条连接需要4次挥手,可见,我们建立这条连接是有成本的,这个成本就是效率成本,简单点说就是时间成 本,你要想发送一段数据,必须先3次握手(来往3个包),然后才能发送数据,发送完了,你需要4次挥手(来往4个包) 来断开这个连接
②CPU资源成本,三次握手和4次挥手和发送数据都是从网卡里发送出去和接收的,还有其余的设备,比如防火墙, 路由器等等,站在操作系统内核的角度来讲,如果我们是一个高并发系统的话,如果大量的数据包都经历过这么一个过 程,那是很耗CPU的。
③每个socket是需要耗费系统缓存的,比如系统提供了一些接口设置socket缓存的,比如:
/proc/sys/net/ipv4/tcp_rmem
/proc/sys/net/ipv4/tcp_wmem
/proc/sys/net/ipv4/tcp_mem
因为TCP的可靠传输,所以我们有大量的应用程序使用TCP协议作为通信,但是每个应用因为产品功能的原因,对TCP的使用是不一样的,比如即时聊天系统(微信,钉钉,探探)
二、TCP长连接、TCP短连接
TCP短连接
概念:如下图所示,客户端与服务器建立连接开始通信,一次/指定次数通信结束之后就断开本次TCP连接,当下次再次通信时,再次建立TCP的链接
优点:不长期占用服务器的内存,那么服务器能处理的连接数量是比较多的
缺点:
因为等到要发送数据或者获取资源时,才去请求建立连接发送数据,否则就是端开连接的,那么如果服务器要想往客户端发送数据时怎么办?凉伴,没有任何办法,或者要等到下一次要请求数据时,才发送,比如我们采用轮询(30秒或者更长)拉取消息, 那么服务器与客户端通信的实时性就丧失了
客户端采用轮询来实时获取信息,或者说大量的客户端使用短连接的方式通信,那么就浪费了大量的CPU和带宽资源用于建立连 接和释放连接,存在资源浪费,甚至是无法建立连接。比如经典的http长轮询(微信网页客户端端)
TCP长连接
概念:如下图所示,TCP与服务器建立连接之后一直处于连接状态,直到最后不再需要服务的时候才断开连接
优点:
传输数据快
服务器能够主动第一时间传输数据到客户端
缺点:
因为客户端与服务器一直保持这种连接,那么在高并发分布式集群系统中客户端数量会越来越多,占 用很多的系统资源
TCP本身是一种有状态的数据,在高并发分布式系统会导致后台设计比较难做
三、TCP的keepalive机制(保活机制)
TCP实现了一种保活机制,主要的设计初衷是:
客户端和服务器需要了解什么时候终止进程或者与对方断开连接
而在另 一些情况下,虽然应用进程之间没有任何数据交换,但仍然需要通过连接保持一个最小的数据流,会非常消耗资源。保活机制可用来检测对方并在适时关闭连接
主要的工作原理就是:探测方会在自己一端设计一个计时器,当计时器被触发之后,向对方发送一个探测报文。如果对端给自己回送一个ACK,那么就代表对方仍存活;如果在指定的时间内没有给自己回送ACK,那么就确认对方已经断开连接,从而断开本次TCP连接Linux的相关内核参数
tcp_keepalive_time:单位秒,表示发送探测报文之前的链接空闲时间,默认为7200
tcp_keepalive_intvl:单位秒,表示两次探测报文发送的时间间隔,默认为75
tcp_keepalive_probes:表示探测的次数,默认为9
Posix套接字选项
int keepalive_time = 30;
setsockopt(incomingsock, IPPROTO_TCP,TCP_KEEPIDLE,(void*)(&keepalive_time),(socklen_t)sizeof(keepalive_time));
int keepalive_intvl = 3;
setsockopt(incomingsock, IPPROTO_TCP,TCP_KEEPINTVL,(void*)(&keepalive_intvl),(socklen_t)sizeof(keepalive_intvl));
int keepalive_probes= 3;
setsockopt(incomingsock, IPPROTO_TCP,TCP_KEEPCNT,(void*)(&keepalive_probes),(socklen_t)sizeof(keepalive_probes));
四、TCP长连接设计
为什么需要长连接
服务器要主动发消息给客户端:如果没有一个连接存在的话,服务器是永远不能主动地找到客户端的,那也就没有办法及时发送消息给客户端
客户端和服务器间频繁地通信:如果是短连接,每次都需要建立连接才能发送消息,如果并发量稍高,可能就会出现大量的TIME_WAIT状态的socket出现,也即后续建立不了连接
业务需要,比如客户端掉线时服务器需要做一些处理:比如清空他的缓存或者其它资源或者其它业务含义,比如QQ头像显示离线
TCP长连接设计时需要考虑到的问题
默认的tcp keep-alive超时时间太长:默认是7200秒,也就是2个小时,当然是可以修改的
socket proxy会让tcp keep-alive失效:所有的proxy应用只能转发TCP的应用数据,做不到转发TCP协议内部的包
移动网络需要信令保活:对于手机等智能终端来讲,他们使用移动网络来上网的,而运营商们为了节约信道资源,会尝试关闭超过60秒或者 45秒的没有发送数据的socket
下面用心跳检测机制来解决这些问题
五、心跳检测
心跳检测就是用户在应用层自己实现的一种机制,用来模仿TCP的keepalive机制,在指定的时间内会向对方放一个心跳检测包,如果在指定的时间内给自己回送了应答,那么就不关闭TCP的连接;如果在指定的时间内没有给自己回送应答,那么就做相应的处理(例如说的关闭本次TCP的链接)Netyy中的实现
编码实现与主要原理
大致思路为:
我们用一棵红黑树管理所有事件节点,其中key为该事件套接字的超时时间,value为套接字
调用wpoll_wait()处理所有事件,其中其最后一个参数为超时时间,必须设置为整棵红黑树中超时时间最短的那个节点的值
当epoll_wait()返回之后,将时间与节点的时间进行比较,如果超时了,那么就做相应的处理
代码解析
下面主要介绍以“服务端”为第一视角,查看其如何对客户端进行心跳检测的
ngx_reactor.c的ngx_reactor_loop()函数:
Reactor的主要中心处理函数ngx_reactor_loop()中会在poll_wait()调用之前获取一下当前时间
然后进行epoll_wait(),其最后一个参数为红黑树中超时时间最短的那个节点的时间值
epoll_wait()返回之后,先更新一下当前时间(全局变量ngx_current_msec)
最后再次获取当前时间,然后与之前的旧的“当前时间”进行,相减得到差值,如果超时了,那么就调用ngx_event_expire_timers()函数
ngx_reactor.c的ngx_event_expire_timers()函数:
该函数也就是该封装事件的what标志|上一个NGX_EVENT_TIMEOUT,将该事件置位超时了的
然后会调用该事件的回调函数
在上面的回调函数中,我们为其绑定的回调函数为ngx_server.c中的client_handler()函数:
该函数会判断该事件的what标志是否有NGX_EVENT_TIMEOUT标志,如果有就调用timeout_cb()处理函数
timeout_cb()函数或判断delta是否超过了KEEPALIVE_INTVAL_MSEC时间,并且超时了3次(KEEPALIVE_INTVAL_PROBES),如果是,那么就调用close()关闭客户端的套接字
上面定义的宏如下所示
来源:oschina
链接:https://my.oschina.net/u/4279277/blog/4466303