世界上几乎所有的HTTP通信都是由TCP/IP承载的。TCP/IP是全球计算机及网络设备都在使用的一种常用的分组交换网络分层协议集。客户端应用程序可以打开一条TCP/IP连接,连接到可能运行在世界任何地方的服务器应用程序。一旦连接建立起来了,在客户端和服务器的计算机之间交换的报文就永远不会丢失、受损或失序。
HTTP连接实际上就是TCP连接和一些使用连接的规则。TCP连接是因特网上的可靠连接。要想正确、快速地发送数据,就需要了解TCP的一些基本知识。
TCP为HTTP提供了一条可靠的比特传输管道。从TCP连接一端填入的字节会从另一端以原有的顺序、正确地传达出来。
Web浏览器通过TCP连接与Web服务器进行交互:
TCP的数据是通过名为IP分组的小数据块来发送。这样的话,HTTP就是“HTTP over TCP over IP”这个“协议栈”中的最顶层了。其安全版本HTTPS就是在HTTP和TCP之间插入了一个密码加密层(TLS或SSL)。
HTTP要传送一条报文时,会以流的形式将报文数据的内容通过一条打开的TCP连接按序传输。TCP收到数据流之后,会将数据流砍成被称作段的小数据块,并将段封装在IP分组中,通过因特网进行传输。所有这些工作都是由TCP/IP软件来处理的,HTTP程序员什么都看不到。
每个TCP段都是由IP分组承载,从一个IP地址发送到另一个IP地址的。每个IP分组都包含:
IP首部包含了源和目的IP地址、长度和其他一些标记。TCP段的首部包含了TCP的端口号、TCP控制标记,以及用于数据排序和完整性检查的一些数字值。
在任意时刻计算机都可以有几条TCP连接处于打开状态。TCP是通过端口号来保持所有这些连接的正确运行的。
IP地址可以将你连接到正确的计算机,而端口号则可以将你连接到正确的应用程序上。TCP连接时通过4个值来识别的:
<源IP地址、源端口号、目的IP地址、目的端口号>
这4个值一起唯一地定义了一条连接。两条不同的TCP连接不能拥有4个完全相同的地址组件值。
操作系统提供了一些操纵其TCP连接的工具。下表显示了套接字API提供的一些主要接口:
套接字API调用 |
描述 |
s = socket( |
创建一个新的、未命名、未关联的套接字 |
bind(s, |
向套接字赋一个本地端口号和接口 |
connect(s, |
创建一条连接本地套接字与远程主机及端口的链接 |
listen(s,…) |
标识一个本地套接字,使其可以合法接收连接。 |
s2 = accept(s) |
等待某人建立一条到本地端口的连接 |
n = read(s, buffer, n) |
尝试从套接字向缓冲区读取n个字节 |
n = writer(s, buffer, n) |
尝试从缓冲区中向套接字写入n个字节 |
close(s) |
完全关闭TCP连接 |
shutdown(s, |
只关闭TCP链接的输入或输出端 |
getsockopt(s, …) |
读取某个内部套接字配置选项的值 |
setsockopt( s, …) |
修改某个内部套接字配置选项的值 |
这个套接字API向HTTP程序员隐藏了TCP和IP的所有细节。套接字API最初是为Unix操作系统开发的,但现在几乎所有的操作系统和语言中都有其变体存在。套接字API允许用户常见了TCP的端点数据结构,将这些端点与远程服务器的TCP端点进行连接,并对数据流进行读写。TCP API隐藏了所有底层网络协议的握手细节,以及TCP数据流与IP分组之间的分段和重装细节。
通过套接字API来凸显客户端和服务器在实现HTTP事务时所应执行的步骤如下:
上图从Web服务器等待连接(S4)开始,客户端根据URL判定出IP地址和端口号,并建立一条道服务器的TCP连接(C3)。建立连接可能要花费一些时间,时间长短取决于服务器距离的远近、服务器的负载情况,以及因特网的拥挤程度。一旦建立了连接,客户端就会发送HTTP请求(C5),服务器则会读取请求(S6)。一旦服务器获取了整条请求报文,就会对请求进行处理,执行所请求的动作(S7),并将数据写回客户端。客户端读取数据(C6),并对响应数据进行处理(C7)。
HTTP紧挨着TCP,位于其上层,所以HTTP事务的性能在很大程度上取决于底层TCP通道的性能。
下图显示了HTTP事务主要的链接、传输以及处理演示。与建立TCP链接,以及传输请求和响应报文的时间相比,事务处理时间可能是很短的。除非客户端或服务器超载,或者正在处理复杂的动态资源,否则HTTP时延就是由TCP网络时延构成的。
HTTP事务的时延有以下几种主要原因:
1、客户端首先要根据URI确定Web服务器的IP地址和端口号。如果最近没有对URI中的主机名进行访问,通过DNS解析系统将URI中的主机名转换成一个IP地址可能要花费数十秒的时间。
2、客户端向服务器发送一条TCP连接请求,并等待服务器回送一个请求接收应答。每条新的TCP连接都会有连接建立时延。这个值通常最多只要一两秒,但如果有数百个HTTP事务的话,这个值会快速地叠加上去。
3、一旦连接建立起来了,客户端就会通过新建立的TCP管道来发送HTTP请求。数据到达时,Web服务器从TCP连接中读取请求报文,并对请求进行处理。因特网传输请求报文,以及服务器处理请求报文都需要时间。
4、Web服务器会回送HTTP响应,这也需要花费时间。
这些TCP网络时延大小取决于硬件速度、网络和服务器的负载,请求和响应报文的尺寸,以及客户端和服务器之间的距离。TCP协议的技术复杂性也会对时延产生巨大的影响。
1、立握TCP连接建手
2、TCP慢启动拥塞控制
3、数据聚集的Nagle算法
4、用于捎带确认的TCP延迟确认算法
5、TIME_WAIT时延和端口耗尽。
建立一条新的TCP连接时,甚至是在发送任意数据之前,TCP软件之间会交换一系列的IP分组,对连接的有关参数进行沟通(如下图)。如果连接只用来传送少量数据,这些交换过程就会严重降低HTTP的性能。
TCP连接握手需要经过以下几个步骤:
1、请求新的TCP连接时,客户端要向服务器发送一个小的TCP分组(40~60字节左右)。这个分组中设置了一个特殊的SYN标记,说明这是一个连接请求(如图中a)。
2、如果服务器接受了连接,就会对一些连接参数进行计算,并向客户端回送一个TCP分组,这个分组的SYN和ACK标记都被置位,说明连接请求已被接收(如图中b)。
3、最后,客户端向服务器回送一条确认信息,通知它连接已成建立(如图中c)。现代的TCP栈都允许客户端在这个确认分组中发送数据。
HTTP程序员不会看到这些分组,都是由TCP/IP软件管理,对其是不可见的。HTTP程序员只能看到创建TCP连接时存在的时延。
通常HTTP事务都不会交换太多数据。SYN/SYN+ACK握手会产生一个可测量的时延。TCP连接的ACK分组通常都足够大,可以承载整个HTTP请求报文,而且很多HTTP服务器响应报文都可以放入一个IP分组中去。
因此,小的HTTP事务可能会在TCP建立上花费50%或更多的时间。
TCP数据传输的性能还取决于TCP连接的使用期。TCP连接会随着时间进行自我“调谐”,起初会限制连接的最大速度,如果数据成功传输,会随着时间的推移提高传输的速度。这种调谐被称为TCP慢启动(slow start),用于防止因特网的突然过载和拥塞。
TCP慢启动限制了一个TCP端点在任意时刻可以传输的分组数。每成功接收一个分组,发送端就有了发送另外两个分组的权限。如果某个HTTP事务有大量数据要发送,是不能一次性将所有分组都发送出去的。必须发送一个分组,等待确认,然后可以发送两个分组,每个分组都必须被确认,这样就可以发送四个分组了,以此类推。这种方式被称为“打开拥塞窗口”。
由于存在这种拥塞控制特性,所以新连接的传输速度会比已经交换过一定量数据的、“以调谐”连接慢一些。由于已调谐连接更快一些,所以HTTP中有一些可以重复用现存连接的工具。
TCP有一个数据流接口,应用程序能通过它把任意尺寸的数据放入TCP栈中——即使一次只放一个字节也可以。但是,每个TCP段中都至少装载了40个字节的标记和首部,所以如果TCP发送了大量包含少量数据的分组,网络的性能就会严重下降。
Nagle算法试图在发送一个分组之前,将大量TCP数据绑定在一起,以提高网络效率。Nagle算法鼓励发送全尺寸的段,只有当所有其他分组都被确认之后,Nagle算法才允许发送非全尺寸的分组。如果其他分组仍然在传输过程中,就将那部分数据缓存起来。只有当挂起分组被确认,或者缓存中累积了足够发送一个全尺寸分组的数据时,才会将缓存的数据发送出去。
Nagle算法会引发几种HTTP性能问题,首先,小的HTTP可能无法填满一个分组,可能会因为等待永远不会到来的额外数据而产生延时。其次Nagle算法与延迟确认之间的交互存在问题,Nagle算法会阻止数据的发送,直到有确认分组抵达位置,但确认分组自身会被延迟确认算法延迟100~200毫秒。
HTTP程序常常会在自己的栈中设置参数TCP_NODELAY,禁止使用Nagle算法,提高性能。如果要这样的做的话,一定要确保会向TCP写入大块数据,这样就不会产生一堆小分组了。
HTTP允许在客户端和最终的源端服务器之间存在一串HTTP中间实体(代理、高速缓存等)。可以从客户端开始,逐跳地将HTTP报文经过这些中间设备,转发到源端服务器上去。
在某些情况下,两个相邻的HTTP应用程序会为它们共享的链接应用一组选项。HTTP的Connection首部字段中有一个由逗号分隔的连接标签列表,这些标签为此连接指定了一些不会传播到其他连接中去的选项。比如:可以用Connection:close来说明发送完下一条报文之后必须关闭的连接。
Connection首部可以承载3种不同类型的标签,因此有时会让人费解:
HTTP首部字段名,列出了只与此连接有关的首部;
任意标签值,用于描述此连接的非标准选项;
值close,说明操作完成之后需要关闭这条持久连接。
如果连接标签中包含了一个HTTP首部字段的名称,那么这个首部字段就包含了与一些连接有关的信息,不能将其转发出去。在将报文转发出去之前,必须删除Connection首部列出的所有首部字段。由于Connection首部可以防止无意中对本地首部的转发,因此将逐跳首部名放入Connection首部被称为“对首部的保护”。
下图是Connection首部允许发送端指定与连接有关的选项。
HTTP应用程序收到一条带有Connection首部的报文时,接收端会解析发送端请求的所有选项,并将其应用。然后将会在将此报文转发给吓一跳地址之前,删除Connection首部以及Connection中列出的所有首部。而且,可能还会有少量没有作为Connection首部值列出,但一定不能被代理转发的逐跳首部。其中包含Proxy-Authenticate、Proxy-Connection、Transfer-Encoding和Upgrade。 如果只对连接进行简单的管理,TCP的性能时延可能会叠加起来。假设一个包含了3个嵌入图片的Web页面,浏览器需要发起4个HTTP事务来显示此页面:1个用于顶层的HTML页面,3个用于嵌入的图片。如果每个事务都需要一条新的连接,那么连接时延和慢启动时延就会叠加起来,如下图:
除了串行加载引入的实际时延之外,加载一幅图片时,页面上其他地方都没有动静也会让人觉得速度很慢。用户更希望同时加载多幅图片。
串行加载的另一个缺点是,有些浏览器在对象加载完毕之前无法获知对象的尺寸,而且它们可能需要尺寸信息来决定将对象放在屏幕的什么位置上,所以在加载了足够多的对象之前,无法在屏幕上显示任何内容。在这种情况下,可能浏览器串行装载对象的进度很正常,但用户面对的却是空白的屏幕,对装载的速度一无所知。
可以提高HTTP连接的性能的四种方法(后面详细介绍):
浏览器可以先完整地请求原始的HTML页面,然后请求第一个嵌入对象,然后请求第二个嵌入对象等,以这种简单的方式对每个嵌入对象串行处理。但这样处理效率非常低。
如下图所示,HTTP允许客户端打开多条连接,并行地执行多个HTTP事务,并行加载了4幅嵌入式图片,每个事务都有自己的TCP连接。
包含嵌入对象的组合页面如果能通过并行连接克服单条连接的空载时间和带宽限制,加载速度也会有所提高。时延可以重叠起来,而且如果单条连接没有充分利用客户端的因特网带宽,可以将未用的带宽分配来装载其他对象。
下图显示了并行连接的时间线,比单条连接快很多。首先要装载的是封闭的HTML页面,然后并行处理其他的3个事务,每个事务都有自己的连接。图片中的装载是并行的,连接的时延也是重叠的。
并行连接并不总是能是页面加载更快一些,但即使实际上它们并没有加快页面的传输速度,并行连接通常也会让用户觉得页面加载得更快了,因为多个组件对象同时出现在屏幕上时,用户能够看到加载的进展。如果整个屏幕上有很多动作在进行,即使实际上秒表显示整个页面的下载时间更长,人也会认为Web页面加载得更快一些。
并行连接可以提高复合页面的传输速度,但存在以下缺点:
持久连接有一些比并行连接更好的地方。持久连接降低了时延和连接建立的开销,将连接保持在已调谐状态,而且减少了打开连接的潜在数量。但是,管理持久连接时要特别小心,不然就会积累出大量的空闲连接,耗费本地以及远程客户端和服务器的资源。
持久连接与并行连接配合使用可能是最高效的方式。现在,很多Web应用程序都会打开少量的并行连接,其中的每一个都是持久连接。持久连接有两种类型:比较老的HTTP/1.0+"keep-alive"连接,以及现代的HTTP/1.1“persistent”连接。
很多HTTP/1.0浏览器和服务器都进行了扩展,以支持一种被称为keep-alive连接的早期实验型持久连接。这些早期的持久连接受到一些互操作性设计方面的困扰,后续在HTTP/1.1上得到修正,但仍有很多客户端和服务器仍在使用keep-alive连接。
下图中将在串行连接上实现4个HTTP事务的时间与在一条持久连接上实现同样事务所需的时间线进行了比较,由于去除了进行连接和关闭连接的开销,所以时间线有所缩减。
keep-alive已经不再使用了,而且在HTTP/1.1中也没有对它的说明。但是浏览器和服务器之间对keep-alive握手的使用仍然相当广泛,因此,HTTP的实现者应该做好与之进行交互操作的准备。
实现HTTP/1.0keep-alive连接的客户端可以通过包含Connection:Keep-Alive首部请求将一条连接保持在打开状态。如果服务器愿意为下一条请求将连接保存在打开状态,就在响应中包含相同的首部。如果响应中没有这个首部,则客户端认为服务器不支持keep-alive,会在发回响应报文之后关闭连接。
keep-alive首部只是请求将连接保持在活跃状态,发出keep-alive请求之后,客户端和服务器并不一定会同意进行keep-alive会话。它们可以在任意时刻关闭空闲的keep-alive连接,并可随意限制keep-alive连接所处理事务的数量。
可以用keep-alive通用首部中指定的、由逗号分隔的选项来调节keep-alive行为。
keep-alive首部完全是可选的,但只有提供Conne:Keep-Alive时才能使用它。
如:Connection:Keep-Alive
Keep-Alive:max=5,timeout=120
上述例子表示服务器最多会为另外5个事务保持连接的打开状态,或者将打开状态保持到连接空闲了2分钟之后。
Web客户端的Connection:Keep-Alive首部应该只会对这条离开客户端的TCP链路产生影响。这就是将其称作“连接”首部的原因。如果客户端正在与一台Web服务器对话,客户端可以发送一个Connection:Keep-Alive首部来告知服务器它希望保持连接的活跃状态。如果服务器支持keep-alive,就回送一个Connection:Keep-Alive首部,否则就不回送。
问题出在代理商,尤其是那些不理解Connection首部,而且不知道在沿着转发链路将其发送出去之前,应该将首部删除的代理。很多老的和简单的代理都是盲中继(blind relay),它们只是将字节从一个连接转发到另一个连接中去,不对Connection首部进行特殊处理。
假如一个Web客户端正通过一个作为盲中继使用的哑代理与Web服务器进行对话,如下图情形:
(1)、在a中,Web客户端向代理发送了一条报文,其中包含了Connection:Keep-Alive首部,如果可能的话请求建立一条keep-alive连接。客户端等待响应,以确定对方是否认可它对keep-alive信道的请求。
(2)、哑代理收到了这条HTTP请求,但它不理解Connection首部。代理不知道keep-alive是什么意思,因此只是沿着转发链路将报文一字不漏地发送给服务器。但Connection首部是个逐跳首部,只适用于单条传输链路,不应该沿着传输链路向下传输。
(3)、在b中,经过中继的HTTP请求抵达了Web服务器。当Web服务器收到经过代理转发的Connection:Keep-Alive首部时,会误以为代理希望进行Keep-Alive对话。对Web服务器来说没什么问题,服务器统一进行keep-alive对话,并在c中回送了一个Connection:Keep-Alive响应首部。所以,此时Web服务器认为它在与代理进行keep-alive对话,会遵循keep-alive的规则。但代理却对keep-alive一无所知。
(4)、在d中,哑代理将Web服务器的响应报文回送给客户端,并将来自Web服务器的Connection:Keep-Alive首部一起传送出去。客户端看到这个首部,就会认为代理同意进行keep-alive对话。所以此时客户端和服务器都认为它们进行keep-alive对话,但与他们进行对话的代理却对keep-alive一无所知。
(5)、由于代理对keep-alive一无所知,所以会将收到的数据都回送给客户端,然后等待源端服务器关闭连接。但源端服务器会认为代理已经显式地请求它将连接保持在打开状态了,所以就不糊去关闭连接。这样代理就会挂在那里等待连接的关闭。
(6)、客户端在d中收到了回送的响应报文时,会立即转向下一条请求,在keep-alive连接上向代理发送另一条请求。而代理并认为同一条连接上会有其他请求的到来,请求被忽略,浏览器就在这里转圈,不会有任何进展了。
(7)、这种错误的通信方式会使浏览器一直处于挂起状态,直到客户端或服务器将连接超时,并将其关闭为止。
为了避免代理通信问题的发生,现代的代理都绝不能转发Connection首部和所有名字出现在Connection值中的首部。因此,如果一个代理收到一个Connection:Keep-Alive首部,是不应该转发Connection首部,或所有名为Keep-Alive的首部的。另外,还有几个不能作为Connection首部值列出,也不能被代理转发或作为缓存响应使用的首部。其中包括Proxy-Authenticate、Proxy-Connection、Transfer-Encoding和Upgrade。
下图中,a~d显示了盲中继是如何向Web服务器转发Proxy-Connection首部,而不带来任何问题的,Web服务器忽略了这个首部,这样的客户端和代理,或者代理和服务器之间就不会建立起keep-alive连接。e~h中那个聪明的代理知道Proxy-Connection首部是对keep-alive对话的请求,它会发送自己的Connection:Keep-Alive首部来建立keep-alive连接。
在客户端和服务器之间只有一个代理时可以用这种方案来解决问题。但下图所示,如果在哑代理的任意一侧还有一个聪明的代理,这个问题就会再次露头了。
网络中出现“不可见”代理的情况现在变得很常见,这些代理可以是防火墙、拦截缓存,或者是反向代理服务器的加速器。这些设备对浏览器是不可见的,所以浏览器不会向它们发送Proxy-Connection收不。透明的Web应用程序正确地实现持久连接是非常重要的。 HTTP/1.1逐渐停止了对keep-alive连接的支持,用持久连接(persistent connection)的改进型设计取代了它。持久连接的目的与keep-alive了解的目的相同,但工作机制更优。
与HTTP/1.0的keep-alive连接不同,HTTP/1.1持久连接在默认情况下是激活的。除非特别指明,否则HTTP/1.1假定所有连接都是持久的。要在事务处理结束之后将连接关闭,HTTP/1.1假定所有连接都是持久的。要在事务处理结束之后将连接关闭,HTTP/1.1应用程序必须向报文中显示地添加一个Connection:close首部。这是与以前的HTTP协议版本很重要的去呗,在以前的版本中,keep-alive连接要么是可选的,要么根本就不支持。
HTTP/1.1客户端假定在收到响应后,除非响应中包含了Connection:close首部,不然HTTP/1.1连接就仍维持在打开状态。但是,客户端和服务器仍然可以随时关闭空闲的连接。不发送Sonnection:close并不意味着服务器承诺永远将连接保持在打开状态。
在持久连接的使用中有以下限制和需要澄清的问题:
HTTP/1.1允许在持久连接上可选地使用请求管道。这是在keep-alive连接上的进一步性能优化。在响应到达之前,可以将多条请求放入队列。当第一条请求通过网络流向地球另一端的服务器时,第二天和第三条请求也可以开始发送了。在高时延网络条件下,这样做可以降低网络的环回时间,提高性能。
下图中,c显示了持久连接时怎么消除TCP连接时延,以及管道化请求时如何消除传输时延的。
对管道化连接有几条限制:
如果HTTP客户端无法确认连接时持久的,就不应该使用管道。
必须按照与请求相同的顺序回送HTTP响应。HTTP报文中没有序列号标签,因此如果收到的响应失序了,就没有办法将其余请求匹配起来了。
HTTP客户端必须做好连接会在任意时刻关闭的准备,还要准备好重发所有未完成的管道化请求。如果客户端打开了一条持久连接,并立即发出了10条请求,服务器可能在只处理了5条请求之后就关闭了,剩下的5条请求会失败,客户端必须能够应对这些过早关闭连接的情况,重新发出这些请求。
HTTP客户端不应该用管道化的方式发送会产生副作用的请求(例如POST),总之,出错的时候,管道化方式会阻碍客户端了解服务器执行的是一系列管道化请求中的哪一些。由于无法安全地重试POST这样的非幂等请求,所以出错时,就存在某些方法永远不会被执行的风险。
每条HTTP响应都应该有精确的Content-Length首部,用以描述响应主体的尺寸。一些老的HTTP服务器会省略Contenr-Length首部,或者包含错误的长度指示,这样就要依赖服务器发出的连接关闭来说明数据的真实末尾。
客户端或代理收到一条随连接关闭而结束的HTTP响应,且实际传输的实体长度与Content-Length并不匹配时,接收端就应该质疑长度的正确性。
如果接收端是个缓存代理,接收端就不应该缓存这条响应。代理应该将有问题的报文原封不动地转发出去,而不应该视图去“校正”Content-Length,以维护语义的透明性。
即使在非错误情况下,连接也可以在任意时刻关闭。HTTP应用程序要做好正确处理非预期关闭的准备。如果在客户端执行事务的过程中,传输连接关闭了,那么,除非事务处理会带来一些副作用,否则客户端就应该重新打开连接,并重试一次。对管道化连接来说,这种情况更加严重一些。客户端可以将大量请求放入队列中排队,但源端服务器可以关闭连接,这样就会留下大量未处理的请求,需要重新调度。
副作用是很重要的问题。如果在发送出一些请求数据之后,收到返回结果之前,连接关闭了,客户端就无法百分百地确定服务器端实际激活了多少事务。有些事务,比如GET一个静态的HTML页面,可以反复执行多次,也不会有什么变化。但如果是POST订单,就不能重复执行,不然会有多张订单的情况。
如果一个事务,不管是执行一次还是多次,得到的结果都相同,这个事务就是幂等待的。例如GET、HEAD、PUT、DELETE、TRACE和OPTION方法。客户端不应该以管道化方式传送非幂等请求,如POST,否则传输连接的过早终止会造成一些不确定的后果。要发送一条非迷瞪请求就需要等待来自前一条请求的响应状态。
尽管用户Agent代理可能会让操作员来选择是否对请求进行重试,但一定不能重试非幂等方法或序列。
TCP连接是双向的。TCP连接的每一端都有一个输入队列和一个输出队列,用于数据的读或写。放入一端输出队列中的数据最终会出现在另一端的输出队列中。
1、完全关闭与半关闭
应用程序可以关闭TCP输入和输出信道中的任意一个,或者将两者都关闭了。套接字调用close()会将TCP连接的输入和输出信道都关闭了。这被称作“完全关闭”,如下图a所示。还可以用套接字调用shutdown()单独关闭输入或输出信道。这被称为“半关闭”,如下图b所示。
2、TCP关闭及重置错误
简单的HTTP应用程序可以只使用完全关闭。但当应用程序开始与很多其他类型的HTTP客户端、服务器和代理进行对话且开始使用管道化持久连接时,使用半关闭来防止对等实体收到非预期的写入错误就变得很重要了。
总之,关闭连接的输出信道总是安全的。连接另一端的对等实体会在从其缓冲区中读出所有数据之后收到一条通知,说明流结束了,这样它就知道你将连接关闭了。
关闭连接的输入信道比较危险,除非你知道另一端不打算再发送其他数据了。如果另一端向你已关闭的输入信道发送数据,操作系统就会向另一端的机器回送一条TCP“连接被对端重置”的报文,如下图所示。大部分操作系统都会将这种情况作为很严重的错误来处理,删除对端还未读取的所有缓存数据。对管道化连接来说,是很糟糕的事情。
比如你已经在一条持久连接上发送了10条管道式请求了,响应也已经收到了,正在操作系统的缓冲区中存着。现在,假设你发送了第11条请求,但服务器认为你使用这条连接的时间已经够长了,决定将其关闭。那么你的第11条请求就会被发送到一条已关闭的连接上去,并会向你回送一条重置信息。这个重置信息会清空你的输入缓冲区。当最终要去读取数据的时候,会得到一个连接被对端重置的错误,已缓存的未读响应数据都丢失了,尽管其中大部分都已经成功抵达你的机器了。
3、正常关闭
HTTP规范建议,当客户端或服务器突然要关闭一条连接时,应该“正常地关闭传输连接”,但它并没有说明应该如何去做。
总之,实现正常关闭的应用程序首先应该关闭他们的输入信道,然后等待连接另一端的对等实体关闭它的输出信道。当两端都告诉对方它们不会再发送任何数据之后,连接就会被完全关闭,而不会有重置的危险。
但无法确保对等实体会实现半关闭,或对其进行检查。因此,想要正常关闭连接的应用程序应该先半关闭其输出信道,然后周期性地检查其输入信道的状态。如果在一定的时间区间内对端都没有关闭输入信道,应用程序就可以强制去关闭连接,节省资源。