HTTP报文首部
HTTP协议的请求和响应报文中必定包含HTTP首部。首部内容为客户端和服务器分别处理请求和响应提供所需要的信息。
HTTP请求报文
在请求中,HTTP报文由方法、URI、HTTP版本、HTTP首部字段等部分构成。HTTP响应报文
在相应中,HTTP报文由HTTP版本、状态码(数字和原因短语)、HTTP首部字段3部分构成。在报文众多的字段中,HTTP首部字段包含的信息最为丰富。首部字段同时存在于请求和响应报文内,并涵盖HTTP报文相关的内容信息。
HTTP首部字段
传递重要信息
使用首部字段是为了给浏览器和服务器提供报文主体大小、所使用的语言、认证信息等内容。
HTTP首部字段结构
由首部字段名和字段值构成的,中间用冒号分隔。
另外,字段值对应单个HTTP首部字段可以有多个值,如下所示:
Keep-Alive:timeout=15,max=100
若HTTP报文首部中出现了两个或两个以上具有相同首部字段名时,根据浏览器内部处理逻辑的不同,结果可能不一致。
4种HTTP首部字段类型
根据实际用途分为:
- 通用首部字段:请求报文和响应报文两方都会使用的首部
- 请求首部字段:补充了请求的附加内容、客户端信息、响应内容相关优先级等信息
- 响应首部字段:补充了响应的附加内容,也会要求客户端附加额外的内容信息
- 实体首部字段:针对请求报文和响应报文的实体部分使用的首部。补充了资源内容更新时间等与实体有关的信息
HTTP/1.1首部字段
- 通用首部字段
- 请求首部字段
- 响应首部字段
- 实体首部字段
非HTTP/1.1首部字段
Cookie、Set-Cookie和Content-Disposition等在其他RFC中定义的首部字段,使用频率也很高。
End-to-end首部和Hop-by-hop首部
HTTP首部字段将定义成缓存代理和非缓存代理的行为,分成2种类型。
- 端对端首部:分在此类别中的首部会转发给请求/响应对应的最终接收目标,且必须保存在有缓存生成的响应中,另外规定它必须被转发。
- 逐跳首部:分在此类别中的首部只对单次转发有效,会因通过缓存或代理而不再转发。HTTP/1.1和之后版本,如果要使用hop-by-hop首部,需提供Conection首部字段。
下面列举出HTTP/1.1中的逐跳首部字段。除了这8个首部字段之外,其他所有字段都属于端到端首部。
- Connection
- Keep-Alive
- Proxy-Authenticate
- Proxy-Authorization
- Trailer
- TE
- Transfer-Encoding
- Upgrade
HTTP/1.1通用首部字段
Cache-Control
能操作缓存的工作机制。(指令的参数是可选的,多个指令之间通过‘,’分隔)首部字段Cache-Control的指令可用于请求及响应时。
- 表示是否能缓存的指令
- public:明确表示其他用户也可利用缓存
- private:当指定private指令后,响应只以特定的用户作为对象。缓存服务器会对该特定用户提供资源缓存的服务。
- no-cache:防止从缓存中返回过期的资源
客户端发送的请求中包含no-cache指令,表示客户端将不会接收缓存过的响应。“中间”的缓存服务器必须把客户端请求转发给源服务器。
服务器返回的响应中包含no-cache,那么缓存服务器不能对资源进行缓存,源服务器以后也将不再对缓存服务器请求中提出的资源有效性进行确认,且禁止其对响应资源进行缓存操作。
Cache-Control: no-cache=Location
有服务器返回的响应中,若对no-cache字段名具体指定参数值,那么客户端在接收到这个被指定参数值的首部字段对应的响应报文后,就不能使用缓存。换言之,无参数值的首部字段可以使用缓存。只能在相应指令中指定该参数。
- 控制可执行缓存的对象的指令
- no-store:暗示请求(和对应的响应)或响应中包含机密信息。因此,该指令规定缓存不能在本地存储请求或响应的任意部分。
- 指定缓存期限和认证的指令
- s-maxage:其功能和max-age指令的相同(单位是s),不同点是s-maxage指令只适用于供多位用户使用的公共缓存服务器。也就是说,对于向同一用户重复返回响应的服务器来说,这个指令没有任何作用。
另外,当使用s-maxage指令后,则直接忽略对Expores首部字段及max-age指令的处理。 - max-age:当客户端发送的请求中包含max-age指令时,如果判定缓存资源的缓存时间数值比指定时间的数值更小,那么客户端就接收缓存的资源。另外,当指定max-age值为0,那么缓存服务器通常需要将请求转发给源服务器。
当服务器返回的响应中包含max-age指令时,缓存服务器将不对资源的有效性再作确认,而max-age数值代表资源保存为缓存的最长时间。
应用HTTP/1.1版本的缓存服务器遇到同时存在Expries首部字段的情况时,会优先处理max-age指令,而忽略掉Expries。但是HTTP/1.0版本的缓存服务器的情况却相反。 - min-fresh:要求缓存服务器返回至少还未过指定时间(单位s)的缓存资源。比如,当指定min-fresh为60秒后,过了60秒的资源都无法作为响应返回了。
- max-stale:可指示缓存资源,即使过期也照常接收。如果指令为指定参数值,那么无论经过多久,客户端都会接收响应。如果指定了具体数值,那么即使过期,只要仍处于max-stale指定的事件内,依旧会被客户端接收。
- only-if-cached:表示客户端仅在缓存服务器本地缓存目标资源的情况下才会要求其返回。换句话说,该指令要求缓存服务器不重新加载响应,也不会再次确认资源有效性。若发生请求缓存服务器的本地缓存无响应,则返回状态码504 Gateway Timeout
- must-revalidate:使用该指令,代理会向源服务器再次验证即将返回的响应缓存目前是否仍然有效。若无法连通源服务器再次获取有效资源的话,缓存必须给客户端一条504状态码。
另外,使用must-revalidate会忽略请求的max-stale指令。 - proxy-revalidate:要求所有的缓存服务器在接收到客户端带有该指令的请求返回响应之前,必须再次验证缓存的有效性。
- no-transform:无论在请求还是响应中,缓存都不能改变实体主体的媒体类型,这样可以防止缓存或代理图片等类似操作。
- Cache-Control拓展:
cache-extension token
Cache-Control:private,community="UCI"
通过cache-extension标记,可以拓展Cache-Contril首部字段内的指令。但是,extension tokens仅对能理解它的缓存服务器来说是有意义的。
Connection
- 控制不再转发给代理的首部字段
在客户端发送请求和服务器返回响应内,使用Connection首部字段,可控制不再转发给代理的首部字段(即Hop-by-hop首部)。 - 管理持久连接
HTTP/1.1版本的默认连接都是持久连接。当服务器想明确断开连接时,则指定Connection首部字段的值为Close。
HTTP/1.1之前的HTTP版本的默认连接都是非持久连接,则需要指定Connection首部字段的值为Keep-Alive。
Date
表示创建HTTP报文的日期和时间
Pragma
Pragma是HTTP/1.1之前版本的历史遗留字段,仅作为与HTTP/1.0的向后兼容而定义。
形式唯一:Pragma:no-cache
该首部字段属于通用首部字段,但只用在客户端发送的请求中。客户端会要求所有的中间服务器不返回缓存的资源。
Trailer
会事先说明在报文主体后记录了哪些首部字段。该首部字段可应用在HTTP/1.1版本分块传输编码时。Transfer-Encoding
规定传输报文主体时采用的编码方式
Upgrade
用于检测HTTP协议及其他协议是否可使用更高的版本进行通信,其参数值可以用来指定一个完全不同的通信协议。使用首部字段Upgrade时,还需要额外指定Connection:Upgrade。
Via
为了追踪客户端与服务器之间的请求和响应报文的传输路径。
报文经过代理或网关时,会先在首部字段Via中附加该服务器的信息,然后再进行转发。首部字段Via不仅用于追踪报文的转发,还可避免请求回环的发生。所以必须在经过代理时附加该首部字段内容。
Via首部是为了追踪传输路径,所以经常会和TRACE方法一起使用。
Warning
HTTP/1.1的Warning首部是从HTTP/1.0的响应首部(Retry-After)演变过来的。该首部通常会告知用户一些与缓存相关的问题的警告。请求首部字段
Accept
该字段可通知服务器,用户代理能够处理的媒体类型及媒体类型的相对优先级。可使用type/subtype这种形式,一次指定多种媒体类型。若想给显示的媒体类型增加优先级,则使用q=来额外表示权重值,用分号(;)进行分隔。权重值q的范围是0~1(可精确到小数点后三位),默认权重为1=1.0.
当服务器提供多种内容时,将会首先返回权重值最高的媒体类型。
Accept-Charset
用来通知服务器用户代理支持的字符集及字符集的相对优先级。同样可以指定多种字符集,也可使用权重q值表示相对优先级。
Accept-Encoding
用来告知服务器用户代理支持的内容编码及内容编码的优先级顺序,可一次性指定多种内容编码。同样可以用权重q值表示相对优先级,也可以使用*作为通配符。
Accept-Language
告知服务器用户代理能够处理的自然语言集及其优先级,可一次指定多种语言集,权重q值表示相对优先级。
Authorization
告知服务器,用户代理的认证信息(证书值)。通常,想要通过服务器认证的用户代理会在接收到返回的401状态码响应后,把首部字段Authorization加入请求中。共用缓存在接收到含有Authorization首部字段的请求时的操作处理会略有差异。
Expect
客户端使用首部字段Expect告知服务器,期望出现的某种特定行为。因服务器无法理解客户端的期望作出回应而发生错误时,会返回状态码417Expectation Failed。
客户端可以利用该首部字段,写明所期望的拓展。虽然HTTP/1.1规范只定义了100-continue(状态码100 Continue)。
等待状态码100响应的客户端在发生请求时,需要指定Expect:100-continue。
From
告知服务器使用用户代理的用户的电子邮件地址。通常,其使用目的就是为了显示搜索引擎等用户代理的负责人的电子邮件联系方式。使用代理时,应尽可能包含在From首部字段。(但可能会因为代理不同,将电子邮件地址记录在User-agent首部字段内)。
Host
虚拟主机运行在同一个IP上,因此使用首部字段Host加以区分。
首部字段Host会告知服务器,请求的资源所处的互联网主机名和端口号。Host首部字段在HTTP/1.1规范内是唯一一个必须被包含在请求内的首部字段。
请求被发送至服务器时,请求中的主机名会用IP地址直接替换解决。若服务器未设定主机名,那直接发送一个空值即可。
If-Match
形如If-xxx这种样式的请求首部字段,都可称为条件请求。服务器接收到附带条件的请求后,只有判断指定条件为真时,才会执行请求。首部字段If-Match,属附带条件之一,它会告知服务器匹配资源所用的实体标记(Etag)值。这时的服务器无法使用若Etag值。还可以使用*指定其字段值。针对这种情况,服务器将会忽略Etag的值,只要资源存在就处理请求。
If-Modified-Since
它会告知服务器,若If-Midified-Since字段值早于资源的更新时间,则希望能处理该请求。而在指定If-modified-Since字段值的日期时间之后,如果请求的资源都没有更新,则返回状态码304Not Modified的响应。
If-Modified-Since 用于确认代理或客户端拥有的本地资源的有效性。获取资源的更新日期时间, 可通过确认首部字段 Last-Modified 来确定。
If-None-Match
在GET或HEAD方法中使用首部字段If-None-Match可获取最新的资源。
If-Range
下面那种方式需要发送两次请求。
If-Unmodified-Since
与首部字段If-Modified-Since作用相反。它的作用的是告知服务器, 指定的请求资源只有在字段值内指定的日期时间之后, 未发生更新的情况下, 才能处理请求。 如果在指定日期时间后发生了更新, 则以状态码 412 Precondition Failed 作为响应返回。
Max-Forwards
通过TRACE方法或OPTIONS方法,发送包含首部字段Max-Forwards收到的请求时,该字段以十进制整数形式指定可经过的服务器最大数目。
使用 HTTP 协议通信时, 请求可能会经过代理等多台服务器。 途中,如果代理服务器由于某些原因导致请求转发失败, 客户端也就等不到服务器返回的响应了。 对此, 我们无从可知。可以灵活使用首部字段 Max-Forwards, 针对以上问题产生的原因展开调查。 由于当 Max-Forwards 字段值为 0 时, 服务器就会立即返回响应, 由此我们至少可以对以那台服务器为终点的传输路径的通信状况有所把握。
Proxy-Authorization
接受到从代理服务器发来的认证质询时,客户端会发送包含该首部字段的请求,已告知服务器认证所需要的信息。
这个行为是与客户端和服务器之间的 HTTP 访问认证相类似的, 不同之处在于, 认证行为发生在客户端与代理之间。 客户端与服务器之间的认证, 使用首部字段 Authorization 可起到相同作用。
Range
对于只需要获取部分资源的范围请求,包含首部字段Range即可告知服务器资源的指定范围。
Referer
客户端一般都会发送Referer首部字段给服务器。但当直接在浏览器地址输入URI(可能含有ID和密码等保密信息),出于安全性的考虑,也可以不发送该首部字段。
TE
告知服务器客户端能够处理相应的传输编码方式及相对优先级。它和首部字段Accept-Encoding的功能很像,但是用于传输编码。
首部字段TE出指定传输编码之外,还可以指定伴随trailer字段的分块传输编码的方式。应用后者时,只需把trailers赋值给该字段值。
User-Agent
将创建请求的浏览器和用户代理名称等信息传达给服务器。
由网络爬虫发起请求时, 有可能会在字段内添加爬虫作者的电子邮件地址。 此外, 如果请求经过代理, 那么中间也很可能被添加上代理服务器的名称。
响应首部字段
Accept-Ranges
告知客户端服务器是否能处理范围请求,以指定获取服务器daunt某个资源。字段值有两种,可处理范围请求时为bytes,反之为none。
Age
告知客户端,源服务器在多久前创建了响应。字段值单位为秒。若创建该响应的服务器是缓存服务器,Age值是指缓存后的响应再次发起认证到认证完成的时间值。创建代理响应时必须加上该字段。
Etag
告知客户端实体标识。它是一种可将资源以字符串形式做唯一性标识的方式。服务器会为每份资源分配对应的Etag值。
当资源更新,Etag值也需要更新,其算法规则,仅仅是由服务器来分配。
资源被缓存时,就会被分配唯一性标识,中文版和英文版浏览器返回的资源不一样,所以仅凭URI指定缓存的资源是相当困难的。
- 强Etag值:不论实体发生多么细微的变化都会改变其值。
- 弱Etag值:只用于提示资源是否相同。只有资源发生了根本改变,产生差异时才会改变Etag值。这时会在字段值最开始处附加W/。
Location
将响应接收方引导至某个与请求URI位置不同的资源。基本上该字段会配合3xx:Redirection的响应,提供重定向的URI。
几乎所有的浏览器在接收到包含首部字段Location的响应后,都会强制性的尝试对已提示的重定向资源的访问。
Proxy-Authenticate
把由代理服务器所要求的认证信息发送给客户端。
Retry-After
告知客户端应该在多久之后再次发送请求。主要配合状态码503 Service Unavailable响应,或3xx Redireact响应一起使用。
字段值可以指定为具体的日期时间(Wed, 04 Jul 2012 06: 34: 24GMT 等格式),也可以是创建响应后的秒数。
Server
告知客户端当前服务器上安装的HTTP服务器应用程序的信息。
Vary
可对缓存进行控制。源服务器会向代理服务器传达关于本地缓存使用方法的命令。
从代理服务器接收到源服务器返回包含Vary指定项的响应之后,若要再进行缓存,仅对请求中含有相同Vary指定首部字段的请求返回缓存。即使对相同资源发起请求,但由于Vary指定的首部字段不相同,因此必须要从源服务器重新获取资源。
WWW-Authenticate
用于HTTP访问认证。告知客户端适用于访问请求URI所指定资源的认证方案和带参数提示的质询。状态码401 Unauthorized响应中,肯定带有该首部字段。
实体首部字段
包含在请求报文和响应报文中的实体部分所使用的首部,用于补充内容的更新时间等与实体相关的信息。
Allow
通知客户端能够支持Request-URI指定资源的所有HTTP方法。当服务器收到不支持的HTTP方法时,会以状态码405Method Not Allowed作为响应返回。与此同时,还会把所有能支持的HTTP方法写入首部字段Allow后返回。
Content-Encoding
告知客户端服务器对实体的主体部分选用的内容编码方式。内容编码是指不丢失实体信息的前提下所进行的压缩。
Content-Language
告知客户端,实体主体使用的自然语言。
Content-Length
表明实体主体部分的大小(单位字节)。对实体主体进行内容编码传输时,不能再使用Content-Length首部字段。
Content-Location
给出与报文主体部分相对应的URI。和首部字段Location不同,其表示的是报文主体返回资源对应的URI。
Content-MD5
是一串由MD5算法生成的值,其目的在于检查报文主体在传输过程中是否保持完整,以及确认传输到达。(HTTP首部无法记录二进制值,通过Base64编码处理)
Content-Range
告知客户端作为响应返回的实体的哪个部分符合范围请求。字段值以字节为单位,表示当前发送部分及整个实体大小。
Content-Type
说明了实体主体内对象的媒体类型。和首部字段Accept一样,字段值用type/subtype形式赋值。
Expires
将资源失效的日期告知客户端。缓存服务器在接收到含有首部字段Expires的响应后,会以缓存来应答请求,在Expires字段值指定的时间之前,响应的副本会一直保存。当超过指定的时间后,会转向源服务器请求资源。
源服务器不希望缓存服务器对资源缓存时,最好在该字段内写入与首部字段Date相同的时间值。
但是,当首部字段Cache-Control有指定max-age指令时,比起该字段,会优先处理max-age指令。
Last-Modified
指明资源最终修改的时间。一般来说,这个值就是Request-URI指定资源被修改的时间。但类似使用CGI脚本进行动态数据处理时,该值有可能会变成数据最终修改时的时间。
为Cookie服务的首部字段
Cookie的工作机制是用户识别及状态管理。Web网站为了管理用户的状态会通过Web浏览器,把一些数据 临时写入用户的计算机内。接着当用户访问该Web网站时,可通过通信方式取回之前发放的Cookie。
Set-Cookie
当服务器准备开始管理客户端的状态时,会事先告知各种信息。- expires:指定浏览器可发送Cookie的有效期。当省略时,其有效期仅限于维持浏览器会话时间段内。这通常限于浏览器应用程序被关闭之前。
另外,一旦Cookie从服务器发送至客户端,服务器就不存在可以显示删除Cookie的方法。但可通过覆盖已过期的Cookie,实现对客户端Cookie的实质性删除操作。 - path:用于限制指定Cookie的发送范围的文件目录。不过有办法避开此限制。
- domain:指定的域名可做到与结尾匹配一致。比
如, 当指定 example.com 后, 除 example.com 以外, www.example.com或 www2.example.com 等都可以发送 Cookie。 - secure:用于限制Web页面尽在HTTPS安全连接时,才可以发送Cookie。
发送Cookie时,指定secure属性的方法如下:
Set-Cookie:name=value;secure
当省略secure属性时,不论HTTP还是HTTPS,都会对Cookie进行回收。
- HttpOnly:是Cookie的拓展功能,它使JS脚本无法获得Cookie。其主要目的为防止跨站脚本攻击对Cookie的信息窃取。
发送指定 HttpOnly 属性的 Cookie 的方法如下所示:
Set-Cookie: name=value; HttpOnly
Cookie
Cookie:status=enable
告知服务器,当客户端想获得HTTP状态管理支持时,就会在请求中包含从服务器接收到的Cookie。接收到多个Cookie时,同样可以以多个Cookie形式发送。
其他首部字段
HTTP首部字段是可以自行拓展的。所以在Web服务器和浏览器的应用上,会出现各种非标准的首部字段。
X-Frame-Options
属于HTTP响应首部,用于控制网站内容在其他Web网站的Frame标签内的显示问题。其主要目的是为了防止点击劫持攻击。
可指定的字段值:
- DENY:拒绝
- SAMEORIGIN:仅同源域名下的页面匹配时许可
现在主流的浏览器都已经支持。
####### X-XSS-Protection
属于HTTP响应首部,它是针对跨站脚本攻击(XSS)的一种对策,用于控制浏览器XSS防护机制的开关。
可指定的字段值: - 0:将XSS过滤设置成无效状态
- 1:将XSS过滤设置成有效状态
DNT
属于HTTP请求首部,是Do Not Track的简称,意为拒绝个人信息被收集,是表示拒绝被精准广告追踪的一种方法。
可指定的字段值:
- 0:同意被追踪
- 1:拒绝被追踪
Web服务器需要对DNT做对应的支持
p3p
属于HTTP响应