TCP粘包/拆包

TCP是个“流”协议,所谓流,就是没有界限的一串数据。TCP底层并不了解上层业务数据的具体含义,它会根据TCP缓冲区的实际情况进行包的划分,所以在业务上认为我,一个完整的包可能会被TCP拆分成多个包进行发送,也有可能把多个小的包封装成一个大的数据包发送,这就是所谓的TCP粘包和拆包问题。

TCP粘包/拆包问题说明

粘包和拆包问题示例图如下:


TCP粘包/拆包问题

假设客户端分别发送了两个数据包D1和D2给服务器,由于服务器一次读取到的字节数是不确定的,所以可能存在以下4钟情况。
(1)服务端分两次读取到了两个独立的数据包,分别是D1和D2,没有粘包和拆包
(2)服务器一次接收到了两个数据包,D1和D2粘合在一起,被TCP称为粘包
(3)服务器分两次读取到两个数据包,第一次读取到了完整的D1包和D2包的部分内容D2_1,第二次读取到了D2的剩余部分D2_2,这被称为TCP拆包
(4)服务器分两次读取到连个数据包,第一次读取到D1的部分内容D1_1,第二次读取到了D1剩余部分D1_2和D2

如果此时服务器TCP接收滑窗非常小,而数据包D1和D2非常大,很有可能会发生第五种可能:服务器分多次才能将D1和D2包接收完全,期间发生多次拆包。

TCP粘包/拆包发生的原因

问题产生的原因有三个:

(1)应用程序write写入的字节大小大于套接口发送缓冲区大小
(2)进行MSS大小的TCP分段
(3)以以太网的payload大于MTU进行IP分片

TCP粘包/拆包问题原因图解

TCP粘包/拆包解决策略

由于底层的TCP无法理解上层的业务数据,所以在底层是无法保证数据包不被拆分和重组的,这个问题只能通过上层的应用协议栈来解决,根据业界的主流协议的解决方法,可归纳如下:

(1)消息长度固定,累计读取到长度总和为定长LEN的报文后,就认为读取到了一个完整的消息:将计数器置位,重新开始读取下一个数据(如每个报文的大小固定为长度200字节,如果不够,空位补空格)
(2)将回车换行符作为消息结束标志
(3将消息分为消息头和消息体,消息头钟包含标识消息总长度(或消息体长度)的字段,通常设计思路为消息头第一个字段使用int32来表示消息的总长度
(4)更复杂的应用层协议

你可能感兴趣的:(TCP粘包/拆包)