linux的KEEPALIVE属性,心跳机制

对于面向连接的TCP socket,在实际应用中通常都要检测对端是否处于连接中,连接端口分两种情况:

  • 1、连接正常关闭,调用close() shutdown()连接优雅关闭,send与recv立马返回错误,select返回SOCK_ERR;
  • 2、连接的对端异常关闭,比如网络断掉,突然断电.

对于第二种情况,判断连接是否断开的方法有一下几种:
  • 自己编写心跳包程序,简单的说就是自己的程序加入一条线程,定时向对端发送数据包,查看是否有ACK,根据ACK的返回情况来管理连接。此方法比较通用,一般使用业务层心跳处理,灵活可控,但改变了现有的协议;
  • 使用TCP的keepalive机制,UNIX网络编程不推荐使用SO_KEEPALIVE来做心跳检测(为什么??)。keepalive原理:TCP内嵌有心跳包,以服务端为例,当server检测到超过一定时间(/proc/sys/net/ipv4/tcp_keepalive_time 7200 即2小时)没有数据传输,那么会向client端发送一个keepalive packet,此时client端有三种反应:
    1、client端连接正常,返回一个ACK.server端收到ACK后重置计时器,在2小时后在发送探测.如果2小时内连接上有数据传输,那么在该时间的基础上向后推延2小时发送探测包;
    2、客户端异常关闭,或网络断开。client无响应,server收不到ACK,在一定时间(/proc/sys/net/ipv4/tcp_keepalive_intvl 75 即75秒)后重发keepalive packet, 并且重发一定次数(/proc/sys/net/ipv4/tcp_keepalive_probes 9 即9次);
    3、客户端曾经崩溃,但已经重启.server收到的探测响应是一个复位,server端终止连接。

SO_KEEPALIVE的缺点:

根据MSDN的文档,如果为socket设置了KEEPALIVE选项,TCP/IP栈在检测到对方掉线后, 任何在该socket上进行的调用(发送/接受调用)就会立刻返回,错误号是WSAENETRESET;同时,此后的任何在该socket句柄的调用会立刻失败,并返回WSAENOTCONN错误。

该机制的缺点:

  • 一、SO_KEEPALIVE无法控制,它会每时每刻都发;
  • 二、SO_KEEPALIVE设置空闲2小时才发送一个“保持存活探测分节”,不能保证实时检测。对于判断网络断开时间太长,对于需要及时响应的程序不太适应。
    当然也可以修改时间间隔参数,但是会影响到所有打开此选项的套接口!关联了完成端口的socket可能会忽略掉该套接字选项。

参考链接:
在Linux环境下使用TCP的keepalive机制:实现了心跳函数,代码逻辑清晰(看代码)
http://www.tuicool.com/articles/yAJ36bz
Linux SO_KEEPALIVE属性:对非活动连接的检测方法跟出现的情况写的比较细致(看描述)
http://blog.csdn.net/callinglove/article/details/38380673
LINUX C网络编程中的心跳机制:解释了不使用SO_KEEPALIVE的缺点
http://blog.csdn.net/yuyin86/article/details/24997175

你可能感兴趣的:(linux的KEEPALIVE属性,心跳机制)