Socket网络编程keepalive(探测包)

Socket网络编程的心跳(探测包)

  • 什么是keepAlive
  • 设置keepAlive有什么用
  • 如何设置keepAlive

1).什么是keepALive:

keepalive是soket中的心跳包,用来判断当前socket是否是联通的状态,keepalive默认是关闭的,因为虽然流量很小,但毕竟也是网络开销,因此需要用户手动开启

2).设置keepalive有什么用:

优点

判断当前socket是否处于连接状态,socket设置有两种模式,一般只有在把socket设置为非阻塞模式才会去设置心跳包,因为阻塞模式的socket会在socket连接断开后收到recvError(返回一个负数或者0),但是也不排除一端已经异常,另一端还在阻塞等。所以设置socket心跳包后,在一定时间间隔内发送一个探测包,如果超过自己设定的范围,发送测就会主动发送RST包去断开当前socket连接.要判定掉线,只需要send或者recv一下,如果结果为零,则为掉线。但是,在长连接下,有可能很长一段时间都没有数据往来。理论上说,这个连接是一直保持连接的,但是实际情况中,如果中间节点出现什么故障是难以知道的。更要命的是,有的节点(防火墙)会自动把一定时间之内没有数据交互的连接给断掉。在这个时候,就需要我们的心跳包了,用于维持长连接,保活。

缺点

开启KeepAlive功能需要消耗额外的宽带和流量,所以TCP协议层默认并不开启KeepAlive功 能,尽管这微不足道,但在按流量计费的环境下增加了费用。keepAlive设置的不合理,可能会因为短暂的网络波动而断开健康的TCP连接,系统默认设置的keepAlive超时时间是7200ms,即两个小时,探测次数为5次,对于很多应用程序,2小时的空闲时间太长,因此需要我们手动开启keepAlive功能并设置合理的keepAlive参数

3).如何设置keepAlive:

心跳检测步骤:
1客户端每隔一个时间间隔发生一个探测包给服务器
2客户端发包时启动一个超时定时器
3服务器端接收到检测包,应该回应一个包
4如果客户机收到服务器的应答包,则说明服务器正常,删除超时定时器
5如果客户端的超时定时器超时,依然没有收到应答包,则说明服务器挂了

keepalive有一个开关,还有keepidle、keepinterval、keepcount三个属性,设置方式如下:

  • 代码设置
int keeplive=1; /* 开启keepalive属性 */
int keepidle=20; /* 如果连接过程中20s没有数据就发送一个探测包 */
int keepinterval=5; /* 探测包的时间间隔为5s */
int keepcount=3 /* 一共发送探测包次数,期间收到回复就不再发送下一次的探测包 */

  setsockopt(pSocket->m_sockfd, SOL_SOCKET, SO_KEEPALIVE, (void *)&keepalive , sizeof(keepalive ));
    setsockopt(pSocket->m_sockfd, SOL_TCP, TCP_KEEPIDLE, (void*)&keepidle , sizeof(keepidle ));
    setsockopt(pSocket->m_sockfd, SOL_TCP, TCP_KEEPINTVL, (void *)&keepinterval , sizeof(keepinterval ));
    setsockopt(pSocket->m_sockfd, SOL_TCP, TCP_KEEPCNT, (void *)&keepcount , sizeof(keepcount ));
  • 配置文件中设置

#cat /proc/sys/net/ipv4/tcp_keepalive_time 7200
#cat /proc/sys/net/ipv4/tcp_keepalive_intvl 75
#cat /proc/sys/net/ipv4/tcp_keepalive_probes 9
修改它们:
#echo 60 > /proc/sys/net/ipv4/tcp_keepalive_time
#echo 5 > /proc/sys/net/ipv4/tcp_keepalive_intvl
#echo 3 > /proc/sys/net/ipv4/tcp_keepalive_probes

若想保存设置可以在etc下修改sysctl.conf加入下面内容

net.ipv4.tcp_keepalive_intvl = 3
net.ipv4.tcp_keepalive_probes = 3
net.ipv4.tcp_keepalive_time = 20

多说一句

心跳包之所以叫心跳包是因为:它像心跳一样每隔固定时间发一次,以此来告诉服务器,这个客户端还活着。事实上这是为了保持长连接,至于这个包的内容,是没有什么特别规定的,不过一般都是很小的包,或者只包含包头的一个空包。
在TCP的机制里面,本身是存在有心跳包的机制的,也就是TCP的选项:SO_KEEPALIVE。系统默认是设置的2小时的心跳频率。但是它检查不到机器断电、网线拔出、防火墙这些断线。而且逻辑层处理断线可能也不是那么好处理。一般,如果只是用于保活还是可以的。
心跳包一般来说都是在逻辑层发送空的echo包来实现的。下一个定时器,在一定时间间隔下发送一个空包给客户端,然后客户端反馈一个同样的空包回来,服务器如果在一定时间内收不到客户端发送过来的反馈包,那就只有认定说掉线了。
其实,要判定掉线,只需要send或者recv一下,如果结果为零,则为掉线。但是,在长连接下,有可能很长一段时间都没有数据往来。理论上说,这个连接是一直保持连接的,但是实际情况中,如果中间节点出现什么故障是难以知道的。更要命的是,有的节点(防火墙)会自动把一定时间之内没有数据交互的连接给断掉。在这个时候,就需要我们的心跳包了,用于维持长连接,保活。
在获知了断线之后,服务器逻辑可能需要做一些事情,比如断线后的数据清理呀,重新连接呀……当然,这个自然是要由逻辑层根据需求去做了。
总的来说,心跳包主要也就是用于长连接的保活和断线处理。一般的应用下,判定时间在30-40秒比较不错。如果实在要求高,那就在6-9秒。

你可能感兴趣的:(网络编程,linux,socket)