HTTP协议详解----HTTP消息

转载请注明出处:http://blog.csdn.net/fishle123/article/details/48895927

本文主要介绍HTTP消息,包括HTTP请求/响应格式,以及HTTP消息头。

HTTP:超文本传输协议(Hypertext Transfer Protocol) 

HTTP的发展是万维网协会(World Wide Web Consortium)和Internet工作小组(Internet Engineering Task Force)合作的结果,(他们)最终发布了一系列的RFC,其中最著名的就是RFC 2616RFC 2616定义了HTTP协议的我们今天普遍使用的一个版本——HTTP 1.1。 

HTTP是一个基于TCP/IP的应用层协议。对于从客户端的每一个HTTP请求,都会经历4个步骤:

1)建立一个到服务器指定端口(默认是80端口)的TCP连接,当然,可以在URL中指定其他的端口

2)客户端向服务器发送消息

3)服务器向客户端发送响应

4)服务器关闭连接

HTTP1.1及后续版本中,可以通过一个TCP连接发送多个请求和响应。也就是在执行4)之前,2)和3)可以执行多次。

1  HTTP请求与响应

HTTP请求由4部分组成,分别是:请求行、消息报头、一个空行,以及请求正文。一般的客户端请求如下:

GET http://www.qq.com/ HTTP/1.1

Accept: */*

Accept-Language: zh-CN

User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0E; .NET4.0C)

Accept-Encoding: gzip, deflate

Connection: Keep-Alive

Host: www.qq.com

Cookie: ts_refer=www.hao123.com/; 

像这样的GET请求不包含消息体,所以请求一个空行结束。

请求行以一个方法符号开头,以空格分开,后面跟着请求的URI和协议的版本,格式如下:

Method  Request-URI  HTTP-Version  CRLF  

其中 Method表示请求方法;Request-URI是一个统一资源标识符;HTTP-Version表示请求的HTTP协议版本;CRLF表示回车和换行(除了作为结尾的CRLF外,不允许出现单独的CRLF字符)。

请求方法(所有方法全为大写)有7种,各个方法的解释如下:

 GET     请求获取Request-URI所标识的资源

 POST    Request-URI所标识的资源后附加新的数据

 HEAD    请求获取由Request-URI所标识的资源的响应消息报头

 PUT      请求服务器存储一个资源,并用Request-URI作为其标识

 DELETE  请求服务器删除Request-URI所标识的资源

 TRACE   请求服务器回送收到的请求信息,主要用于测试或诊断

 OPTIONS 请求查询服务器的性能,或者查询与资源相关的选项和需求

HEAD方法与GET方法几乎是一样的,对于HEAD请求的回应部分来说,它的HTTP头部中包含的信息与通过GET请求所得到的信息是相同的。利用这个方法,不必传输整个资源内容,就可以得到Request-URI所标识的资源的信息。该方法常用于测试超链接的有效性,是否可以访问,以及最近是否更新。

在接收和解释请求消息后,服务器返回一个HTTP响应消息。

HTTP响应也是由三个部分组成,分别是:状态行、消息报头、一个空行,响应正文。一个典型的成功响应如下:

HTTP/1.1 200 OK

Server: JDWS/1.2.7

Date: Sat, 19 Sep 2015 04:37:16 GMT

Transfer-Encoding: chunked

Connection: close


dsp_1442637227614([{"pf":[],"pid":"11483650"},{"pf":[],"pid":"10066526"},{"pf":[],"pid":"11701869"},{"pf":[],"pid":"11583894"},{"pf":[],"pid":"1332825"},{"pf":[],"pid":"1593239771"}])

 

 状态行格式如下:

 HTTP-Version  Status-Code  Reason-Phrase  CRLF

 其中,HTTP-Version表示服务器HTTP协议的版本;Status-Code表示服务器发回的响应状态代码;Reason-Phrase表示状态代码的文本描述。

 状态代码有三位数字组成,第一个数字定义了响应的类别,且有五种可能取值:

 1xx:指示信息--表示请求已接收,继续处理

 2xx:成功--表示请求已被成功接收、理解、接受

 3xx:重定向--要完成请求必须进行更进一步的操作

 4xx:客户端错误--请求有语法错误或请求无法实现

 5xx:服务器端错误--服务器未能实现合法的请求

 常见状态代码、状态描述、说明:

 200 OK      客户端请求成功

 400 Bad Request  //客户端请求有语法错误,不能被服务器所理解

 401 Unauthorized //请求未经授权,这个状态代码必须和WWW-Authenticate报头域一起使用 

 403 Forbidden  //服务器收到请求,但是拒绝提供服务

 404 Not Found  //请求资源不存在,eg:输入了错误的URL

 500 Internal Server Error //服务器发生不可预期的错误

 503 Server Unavailable  //服务器当前不能处理客户端的请求,一段时间后可能恢复正常

2  消息头部

HTTP的头域包括通用头,请求头,响应头和实体头四个部分。

通用头域包含请求和响应消息都支持的头域,通用头域包含缓存头部Cache-ControlPragma及信息性头部ConnectionDateTransfer-EncodingUpdateVia

请求头部是请求报文特有的,它们为服务器提供了一些额外信息,比如客户端可以处理的数据类型,如Accept: image/jpeg,表明客户端可以处理一个jpeg的图片类型。

响应头部便于服务端传递关于response的、不能放到Status-Line的附加信息。

实体头部指的是用于应对实体主体部分的头部,比如,可以用实体头部来说明实体主体部分的数据类型,如Content-Type头部。

2.1 HTTP通用头

1Cache-Control

Cache-Control指定请求和响应遵循的缓存机制。在请求消息或响应消息中设置 Cache-Control并不会修改另一个消息处理过程中的缓存处理过程。请求时的Cache-Control的值可以设置为:no-cacheno-storemax-age、 max-stalemin-freshonly-if-cached,响应消息中的Cache-Control的值可以设置为:publicprivateno-cacheno- storeno-transformmust-revalidateproxy-revalidatemax-age。各个值得含义如下:

no-cache:这个很容易让人产生误解,使人误以为是响应不被缓存。实际上Cache-Control: no-cache是会被缓存的,只不过每次在向客户端(浏览器)提供响应数据时,缓存都要向服务器验证缓存响应的有效性。

no-store:缓存应该尽快从存储器中删除文档的所有痕迹,因为其中可能会包含敏感信息。

max-age:缓存不能返回缓存时间长于max-age规定秒的文档,若不超规定秒浏览器将不会发送对应的请求到服务器,数据直接由缓存返回;超过这一时间段才由服务器决定是返回新数据还是仍由缓存提供。若同时还发送了max-stale指令,则使用期可能会超过其过期时间。

min-fresh:至少在未来规定秒内文档要保持新鲜,接受其新鲜生命期大于其当前 Age 跟 min-fresh 值之和的缓存对象。

max-stale:指示客户端可以接收过期响应消息,如果指定max-stale消息的值,那么客户端可以接收过期但在指定值之内的响应消息。

only-if-cached:只有当缓存中有副本存在时,客户端才会获得一份副本。

Public:指示响应可被任何缓存区缓存,可以用缓存内容回应任何用户。

Private:指示对于单个用户的整个或部分响应消息,不能被共享缓存处理,只能用缓存内容回应先前请求该内容的那个用户。

2、Pragma

no-cache:HTTP/1.1协议中,它的含义和Cache- Control:no-cache相同。Pragma: no-cache兼容http 1.0 Cache-Control: no-cachehttp 1.1提供的。因此,Pragma: no-cache可以应用到http 1.0 http 1.1,而Cache-Control: no-cache只能应用于http 1.1

3Connection

Connection表示是否需要持久连接。如果Servlet看到这里的值为“Keep-Alive”,或者看到请求使用的是HTTP 1.1HTTP 1.1默认进行持久连接),它就可以利用持久连接的优点,当页面包含多个元素时(例如Applet,图片),显著地减少下载所需要的时间。要实现这一点,Servlet需要在应答中发送一个Content-Length头,最简单的实现方法是:先把内容写入ByteArrayOutputStream,然后在正式写出内容之前计算它的大小。

Close:告诉WEB服务器或者代理服务器,在完成本次请求的响应后,断开连接,不要等待本次连接的后续请求了。

Keepalive:告诉WEB服务器或者代理服务器,在完成本次请求的响应后,保持连接,等待本次连接的后续请求。

Keep-Alive:如果浏览器请求保持连接,则该头部表明希望WEB服务器保持连接多长时间(秒),如Keep-Alive300

4Date

Date头域表示消息发送的时间,服务器响应中要包含这个头部,因为缓存在评估响应的新鲜度时要用到,其时间的描述格式由RFC822定义。例如,Date:Mon, 31 Dec 2001 04:25:57 GMTDate描述的时间表示世界标准时,换算成本地时间,需要知道用户所在的时区。

5Transfer-Encoding

WEB服务器表明自己对本响应消息体(不是消息体里面的对象)作了怎样的编码,比如是否分块(chunked),例如:Transfer-Encoding: chunked,它表示消息体由数量未定的块组成,并以最后一个大小为0的块为结束。

6Upgrade

它可以指定另一种可能完全不同的协议,如HTTP/1.1客户端可以向服务器发送一条HTTP/1.0请求,其中包含值为“HTTP/1.1”的Update头部,这样客户端就可以测试一下服务器是否也使用HTTP/1.1了。

7Via

列出从客户端到OCS(Open Cache Service)或者相反方向的响应经过了哪些代理服务器,他们用什么协议(和版本)发送的请求。

当客户端请求到达第一个代理服务器时,该服务器会在自己发出的请求里面添加 Via 头部,并填上自己的相关信息,当下一个代理服务器 收到第一个代理服务器的请求时,会在自己发出的请求里面复制前一个代理服务器的请求的Via头部,并把自己的相关信息加到后面,以此类推,当OCS收到最后一个代理服务器的请求时,检查 Via 头部,就知道该请求所经过的路由。例如:Via1.0 236-81.D07071953.sina.com.cn:80 (squid/2.6.STABLE13)

2.2  HTTP请求头

请求头用于说明是谁或什么在发送请求、请求源于何处,或者客户端的能处理的数据类型、支持的编码格式等。服务器可以根据请求头部给出的客户端信息,试着为客户端提供更好的响应。请求头域可能包含下列字段AcceptAccept-CharsetAccept- EncodingAccept-LanguageAuthorizationFromHostIf-Modified-SinceIf-MatchIf-None-MatchIf-RangeIf-RangeIf-Unmodified-SinceMax-ForwardsProxy-AuthorizationRangeRefererUser-Agent。对请求头域的扩展要求通讯双方都支持,如果存在不支持的请求头域,一般将会作为实体头域处理。

1Accept

告诉WEB服务器自己接受的MIME类型,*/* 表示任何类型,type/* 表示该类型下的所有子类型,type/sub-type,如text/html

2、Accept-Charset

浏览器告诉服务器自己能接收的字符集。

3Accept-Encoding

浏览器申明自己接收的编码方法,通常指定压缩方法,是否支持压缩,支持什么压缩方法(gzipdeflate)。

4Accept-Language

浏览器申明自己接收的语言。语言跟字符集的区别:中文是语言,中文有多种字符集,比如big5gb2312gbk等等。

5Authorization

当客户端接收到来自WEB服务器的 WWW-Authenticate 响应时,用该头部来回应自己的身份验证信息给WEB服务器。

6If-Match

如果对象的 ETag 没有改变,其实也就意味著对象没有改变,才执行请求的动作,获取文档。

7If-None-Match

如果对象的 ETag 改变了,其实也就意味著对象也改变了,才执行请求的动作,获取文档。

8If-Modified-Since

如果请求的对象在该头部指定的时间之后修改了,才执行请求的动作(比如返回对象),否则返回代码304,告诉浏览器该对象没有修改。例如:If-Modified-SinceThu, 10 Apr 2008 09:14:42 GMT

9If-Unmodified-Since

如果请求的对象在该头部指定的时间之后没修改过,才执行请求的动作(比如返回对象)。

10If-Range

浏览器告诉 WEB 服务器,如果我请求的对象没有改变,就把我缺少的部分给我,如果对象改变了,就把整个对象给我。浏览器通过发送请求对象的ETag 或者自己所知道的最后修改时间给 WEB 服务器,让其判断对象是否改变了。总是跟 Range 头部一起使用。

11Range

浏览器(比如 Flashget 多线程下载时)告诉 WEB 服务器自己想取对象的哪部分。例如:Range: bytes=1173546

12Proxy-Authenticate

代理服务器响应浏览器,要求其提供代理身份验证信息。

13Proxy-Authorization

浏览器响应代理服务器的身份验证请求,提供自己的身份信息。

14Host

客户端指定自己想访问的WEB服务器的域名/IP 地址和端口号。如Hostrss.sina.com.cn

15Referer

浏览器向WEB 服务器表明自己是从哪个网页URL获得点击当前请求中的网址/URL,例如:Refererhttp://www.ecdoer.com/

16User-Agent

浏览器表明自己的身份(是哪种浏览器)。例如:User-AgentMozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN;rv:1.8.1.14) Gecko/20080404 Firefox/2.0.0.14

2.3  HTTP响应头

响应头向客户端提供一些额外信息,比如谁在发送响应、响应者的功能,甚至与响应相关的一些特殊指令。这些头部有助于客户端处理响应,并在将来发起更好的请求。响应头域包含AgeLocationProxy-AuthenticatePublicRetry- AfterServerVaryWarningWWW-Authenticate。对响应头域的扩展要求通讯双方都支持,如果存在不支持的响应头域,一般将会作为实体头域处理。

1Age

当代理服务器用自己缓存的实体去响应请求时,用该头部表明该实体从产生到现在经过多长时间了。

2Server

WEB 服务器表明自己是什么软件及版本等信息。例如:ServerApache/2.0.61 (Unix)

3Accept-Ranges

WEB服务器表明自己是否接受获取其某个实体的一部分(比如文件的一部分)的请求。bytes:表示接受,none:表示不接受。

3Vary

WEB服务器用该头部的内容告诉缓存服务器,在什么条件下才能用本响应所返回的对象响应后续的请求。假如源WEB服务器在接到第一个请求消息时,其响应消息的头部为:Content-Encoding: gzip; Vary: Content-Encoding,那么Cache服务器会分析后续请求消息的头部,检查其Accept-Encoding,是否跟先前响应的Vary头部值一致,即是否使用相同的内容编码方法,这样就可以防止Cache服务器用自己Cache 里面压缩后的实体响应给不具备解压能力的浏览器。例如:VaryAccept-Encoding

2.4  HTTP实体头

实体头部提供了有关实体及其内容的大量信息,从有关对象类型的信息,到能够对资源使用的各种有效的请求方法。总之,实体头部可以告知接收者它在对什么进行处理。请求消息和响应消息都可以包含实体信息,实体信息一般由实体头域和实体组成。实体头域包含关于实体的原信息,实体头包括信息性头部AllowLocation,内容头部Content-BaseContent-EncodingContent-LanguageContent-LengthContent-LocationContent-MD5Content-RangeContent-Type,缓存头部EtagExpiresLast-Modifiedextension-header

1Allow

服务器支持哪些请求方法(如GETPOST等)。

2Location

表示客户应当到哪里去提取文档,用于将接收端定位到资源的位置(URL)上。Location通常不是直接设置的,而是通过HttpServletResponsesendRedirect方法,该方法同时设置状态代码为302

3Content-Base

解析主体中的相对URL时使用的基础URL

4Content-Encoding

WEB服务器表明自己使用了什么压缩方法(gzipdeflate)压缩响应中的对象。例如:Content-Encodinggzip

5Content-Language

WEB 服务器告诉浏览器理解主体时最适宜使用的自然语言。

6Content-Length

WEB服务器告诉浏览器自己响应的对象的长度或尺寸,例如:Content-Length: 26012

7Content-Location

资源实际所处的位置。

8Content-MD5

主体的MD5校验和。

9Content-Range

实体头用于指定整个实体中的一部分的插入位置,他也指示了整个实体的长度。在服务器向客户返回一个部分响应,它必须描述响应覆盖的范围和整个实体长度。一般格式: Content-Range:bytes-unitSPfirst-byte-pos-last-byte-pos/entity-legth。例如,传送头500个字节次字段的形式:Content-Range:bytes0- 499/1234如果一个http消息包含此节(例如,对范围请求的响应或对一系列范围的重叠请求),Content-Range表示传送的范围,Content-Length表示实际传送的字节数。

10Content-Type

WEB 服务器告诉浏览器自己响应的对象的类型。例如:Content-Typeapplication/xml

11Etag

就是一个对象(比如URL)的标志值,就一个对象而言,比如一个html文件,如果被修改了,其Etag也会别修改,所以,ETag的作用跟Last-Modified的作用差不多,主要供WEB服务器判断一个对象是否改变了。比如前一次请求某个html文件时,获得了其 ETag,当这次又请求这个文件时,浏览器就会把先前获得ETag值发送给WEB服务器,然后WEB服务器会把这个ETag跟该文件的当前ETag进行对比,然后就知道这个文件有没有改变了。

12Expires

WEB服务器表明该实体将在什么时候过期,对于过期了的对象,只有在跟WEB服务器验证了其有效性后,才能用来响应客户请求。是 HTTP/1.0 的头部。例如:ExpiresSat, 23 May 2009 10:02:12 GMT

13Last-Modified

WEB服务器认为对象的最后修改时间,比如文件的最后修改时间,动态页面的最后产生时间等等。例如:Last-ModifiedTue, 06 May 2008 02:42:43 GMT


 

 

 

 

 

 

你可能感兴趣的:(http,网络编程,http请求,http头部)