HTTP 协议是一个”纯文本“的协议,在实际传输的数据前要附加一些头数据,不过头数据都是ASCII码的文本,可以很容易地用肉眼阅读,不用借助程序解析也能够看懂
HTTP协议的请求报文和响应报文的结构基本相同,由三大部分组成:
其中前两部分起始行和头部字段经常合称为”请求头“或”响应头“,消息正文又称为”实体“,但与”header“对应,很多时候就直接称为”body“
HTTP协议规定报文必须有header,但可以没有body,而且在header之后必须要有一个“空行”,也就是“CRLF”,十六机制的“0D0A”
所以,一个完整的HTTP报文就像下图的这样,注意在header和body之间有一个“空行”
接下来看上一篇提到的获取的 GET 请求报文信息
在这个浏览器发出的请求报文里,第一行“GET / HTTP/1.1”就是请求行,而后面的“Host”“Connection”等等都属于header,报文的最后是一个空白行结束,没有body
其实浏览器发送GET请求的时HTTP报文经常是只有header而没body。,虽然HTTP协议对header的大小没有做限制,但各个Web服务器都不允许过大的请求头,因为头部太大可能会占用大量的服务器资源,影响运行效率
请求报文里的起始行也就是请求行(request line),简要描述了客户端想要如何操作服务器端的资源
请求行由三部分构成:
这三个部分通常使用空格(space)来分隔,最后要用CRLF换行表示结束
还是用Wireshark抓包的数据来举例:
GET / HTTP/1.1
在这个请求行里,“GET”是请求方法,“/”是请求标,“HTTP/1.1”是版本号,把这三部分连起来,意思就是“服务器你好,我想获取网站根目录下的默认文件,我用的协议版本号是1.1
蒂姆·伯纳斯-李最初设想的是要用HTTP协议构建一个超链接文档系统,使用URI来定位这些文档,也就是资源。那么,该怎么在协议里操作这些资源呢?
所以,就出现了“请求方法”。实际含义就是客户端发出了一个“动作指令”,要求服务器端对URI定位的资源执行这个动作
HTTP/1.1规定了八种方法,单词都必须是大写的形式:
有点像对文件或数据库的“增删改查”操作,只不过这些动作操作的目标不是本地资源,而是远程服务器上的资源,所以只能由客户端“请求”或者“指示”服务器来完成
既然请求方法是一个“指示”,那么客户端自然就没有决定权,服务器掌控着所有资源,也就有绝对的决策权力。它收到HTTP请求报文后,看到里面的请求方法,可以执行也可以拒绝,或者改变动作的含义,毕竟HTTP是一个“协议”,两边都要“商量着来”
比如,发起了一个GET请求,想获取“/orders”这个文件,但这个文件保密级别比较高,不是谁都能看的,服务器就可以有如下的几种响应方式:
举几个个比较常用的方法说明:
请求从服务器获取资源,这个资源既可以是静态的文本、页面、图片、视频,也可以是由PHP、Java动态生成的页面或者其他格式的数据
GET方法虽然基本动作比较简单,但搭配URI和其他头字段就能实现对资源更精细操作,例如,在URI后使用“#”,可以在获取页面后直接定位到某个标签所在的位置;使用If-Modified-Since字段就变成了“有条件的请求”,仅当资源被修改时才会执行获取动作;使用Range字段就是“范围请求”,只获取资源的一部分数据
HEAD方法与GET方法类似,也是请求从服务器获取资源,服务器的处理机制也是一样的,但服务器不会返回请求的实体数据,只传回响应头,就是资源的“元信息”。可以看做是GET方法的一个“简化版”或者“轻量版”。因为它的响应头与GET完全相同,所以可以用在很多并不真正需要资源的场合,避免传输body数据的浪费
比如,想要检查一个文件是否存在,只要发个HEAD请求就可以了,没有必要用GET把整个文件都取下来。
再比如,要检查文件是否有最新版本,同样也应该用HEAD,服务器会在响应头里把文件的修改时间传回来
GET和HEAD方法是从服务器获取数据,而POST和PUT方法则是相反操作,向URI指定的资源提交数据,数据就放在报文的body里
比如,上论坛灌水,敲了一堆字后点击“发帖”按钮,浏览器就执行了一次POST请求,把你的文字放进报文的body里,然后拼好POST请求头,通过TCP协议发给服务器。
又比如,上购物网站,看到了一件心仪的商品,点击“加入购物车”,这时也会有POST请求,浏览器会把商品ID发给服务器,服务器再把ID写入你的购物车相关的数据库记录
PUT的作用与POST类似,也可以向服务器提交数据,但与POST存在微妙的不同,通常POST表示的是“新建”“create”的含义,而PUT则是“修改”“update”的含义
在实际应用中,PUT用到的比较少。而且,因为它与POST的语义、功能太过近似,有的服务器甚至就直接禁止使用PUT方法,只用POST方法上传数据
DELETE方法指示服务器删除资源,因为这个动作危险性太大,所以通常服务器不会执行真正的删除操作,而是对资源做一个删除标记。当然,更多的时候服务器就直接不处理DELETE请求
CONNECT是一个比较特殊的方法,要求服务器为客户端和另一台远程服务器建立一条特殊的连接隧道,这时Web服务器在中间充当了代理的角色
OPTIONS方法要求服务器列出可对资源实行的操作方法,在响应头的Allow字段里返回。它的功能很有限,用处也不大,有的服务器(例如Nginx)干脆就没有实现对它的支持
TRACE方法多用于对HTTP链路的测试或诊断,可以显示出请求-响应的传输路径。它的本意是好的,但存在漏洞,会泄漏网站的信息,所以Web服务器通常也是禁止使用
URI,也就是统一资源标识符(Uniform Resource Identifier)包含有URL和URN两个部分,在HTTP世界里用的网址实际上是URL,即统一资源定位符(Uniform Resource Locator)。但因为URL实在是太普及了,所以常常把这两者简单地视为相等
URI本质上是一个字符串,这个字符串的作用是唯一地标记资源的位置或者名字,它不仅能够标记万维网的资源,也可以标记其他的,如邮件系统、本地文件系统等任意资源。而“资源”既可以是存在磁盘上的静态文本、页面数据,也可以是由Java、PHP提供的动态服务
下面的这张图显示了URI最常用的形式,由scheme、host:port、path和query四个部分组成,但有的部分可以视情况省略
http://nginx.org
协议名 http
主机名 nginx.org
端口号省略,对于 http 协议默认 80
路径部分也被省略,默认就是一个“/”,表示根目录
http://www.chrono.com:8080/11-1
主机名 www.chrono.com
端口号 8080
路径是 /11-1
HTTP协议标准文档RFC7230的URI
https://tools.ietf.org/html/rfc7230
主机名 tools.ietf.org
路径是 /html/rfc7230
file:///D:/http_study/www/
协议名 file,表示这是本地文件
三个斜杠里的前两个属于URI特殊分隔符 ://
主机名被省略,file类型URI的“特例”,它允许省略主机名,默认是本机localhost
路径是 /D:/http_study/www/
但对于HTTP或HTTPS这样的网络通信协议
主机名是绝对不能省略的,会导致浏览器无法找到服务器
查询参数:URI后面还有一个“query”部分,它在path之后,用一个“?”开始,但不包含“?”,表示对资源附加的额外要求。
查询参数query有一套自己的格式,是多个“key=value”的字符串,这些KV值用字 符“&”连接,浏览器和客户端都可以按照这个格式把长串的查询参数解析成可理解的字典或关联数组形式
例如:获取商品图片,但想要一个32×32的缩略图版本;获取商品列表,但要按某种规则做分页和排序;跳转页面,但想要标记跳转前的原始页面
URI的完整格式
第一个多出的部分是协议名之后、主机名之前的身份信息“user:passwd@”,表示登录主机时的用户名和密码,但现在已经不推荐使用这种形式了(RFC7230),因为它把敏感信息以明文形式暴露出来,存在严重的安全隐患
第二个多出的部分是查询参数后的片段标识符“#fragment”,它是URI所定位的资源内部的一个“锚点”或者说是“标签”,浏览器可以在获取资源后直接跳转到它指示的位置。
但片段标识符仅能由浏览器这样的客户端使用,服务器是看不到的。也就是说,浏览器永远不会把带“#fragment”的URI发送给服务器,服务器也永远不会用这种方式去处理资源的片段
在URI里只能使用ASCII码。对于ASCII码以外的字符集和特殊字符做一个特殊的操作,把它们转换成与URI语义不冲突的形式。这在RFC规范里称为“escape”和“unescape”,俗称“转义”
看完了请求行,我们再看响应报文里的起始行,在这里它不叫“响应行”,而是叫“状态行”(status line),意思是服务器响应的状态
比起请求行来说,状态行要简单一些,同样也是由三部分构成:
看一下之前 Wireshark 抓包里的响应报文,状态行是:
HTTP/1.1 200 OK
意思就是:“浏览器你好,我已经处理完了你的请求,这个报文使用的协议版本号是1.1,状态码是200,一切OK。”
另一个“GET /favicon.ico HTTP/1.1”的响应报文状态行是:
HTTP/1.1 404 Not Found
意思是:抱歉啊浏览器,刚才你的请求收到了,但我没找到你要的资源,错误代码是404
它是一个十进制数字,表示服务器对请求的处理结果。客户端可以依据代码适时转换处理状态,例如继续发送请求、切换协议,重定向跳转等,有那么点TCP状态转换的意思
目前RFC标准里规定的状态码是三位数,所以取值范围就是从000到999。RFC标准把状态码分成了五类,用数字的第一位表示分类,而0-99不用,由000-999变成了100~599
这五类具体含义:
接下来逐个解释:
1××类状态码属于提示信息,是协议处理的中间状态,实际能够用到的时候少。“101 Switching Protocols”。它的意思是客户端使用Upgrade头字段,要求在HTTP协议的基础上改成其他的协议继续通信,比如WebSocket。而如果服务器也同意变更协议,就会发送状态码101,但这之后的数据传输就不会再使用HTTP了
2××类状态码表示服务器收到并成功处理了客户端的请求,这也是客户端最愿意看到的状态码
200 OK 是最常见的成功状态码,表示一切正常,服务器如客户端所期望的那样返回了处理结果,如果是非HEAD请求,通常在响应头后都会有body数据
204 No Content 是另一个很常见的成功状态码,它的含义与“200 OK”基本相同,但响应头后没有body数据。所以对于Web服务器来说
206 Partial Content 是HTTP分块下载或断点续传的基础,在客户端发送“范围请求”、要求获取资源的部分数据时出现,它与200一样,也是服务器成功处理了请求,但body里的数据不是资源的全部,而是其中的一部分。他还会伴随着头字段“Content-Range”,表示响应报文里body数据的具体范围,供客户端确认,例如“Content-Range: bytes 0-99/2000”,意思是此次获取的是总计2000个字节的前100个字节
3××类状态码表示客户端请求的资源发生了变动,客户端必须用新的URI重新发送请求获取资源,也就是通常所说的“重定向”
301 Moved Permanently俗称“永久重定向,含义是此次请求的资源已经不存在了,需要改用改用新的URI再次访问
302 Found “临时重定向,意思是请求的资源还在,但需要暂时用另一个URI来访问
比如,你的网站升级到了HTTPS,原来的HTTP不打算用了,这就是“永久”的,所以要配置301跳转,把所有的HTTP流量都切换到HTTPS
再比如,今天夜里网站后台要系统维护,服务暂时不可用,这就属于“临时”的,可以配置成302跳转,把流量临时切换到一个静态通知页面,浏览器看到这个302就知道这只是暂时的情况,不会做缓存优化,第二天还会访问原来的地址
304 Not Modified 表示资源未修改,用于缓存控制。它不具有通常的跳转含义,但可以理解成“重定向已到缓存的文件”(即“缓存重定向)
关于 HTTP 重定向和跳转
4××类状态码表示客户端发送的请求报文有误,服务器无法处理
400 Bad Request 是一个通用的错误码,表示请求报文有错误,但具体是数据格式错误、缺少请求头还是URI超长它没有明确说,只是一个笼统的错误,客户端看到400只会是“一头雾水”“不知所措”。所以,在开发Web应用时应当尽量避免给客户端返回400,而是要用其他更有明确含义的状态码。
403 Forbidden 实际上不是客户端的请求出错,而是表示服务器禁止访问资源。原因可能多种多样,例如信息敏感、法律禁止等,如果服务器友好一点,可以在body里详细说明拒绝请求的原因,不过现实中通常都是直接给一个“闭门羹”。
404 Not Found 可能是我们最常看见也是最不愿意看到的一个状态码,它的原意是资源在本服务器上未找到,所以无法提供给客户端。但现在已经被“用滥了”,只要服务器“不高兴”就可以给出个404,而我们也无从得知后面到底是真的未找到,还是有什么别的原因,某种程度上它比403还要令人讨厌。
5××类状态码表示客户端请求报文正确,但服务器在处理时内部发生了错误,无法返回应有的响应数据,是服务器端的“错误码”
500 Internal Server Error 与400类似,也是一个通用的错误码,服务器究竟发生了什么错误我们是不知道的。不过对于服务器来说这应该算是好事,通常不应该把服务器内部的详细信息,例如出错的函数调用栈告诉外界。虽然不利于调试,但能够防止黑客的窥探或者分析
501 Not Implemented 表示客户端请求的功能还不支持,这个错误码比500要“温和”一些,和“即将开业,敬请期待”的意思差不多,不过具体什么时候“开业”就不好说
502 Bad Gateway 通常是服务器作为网关或者代理时返回的错误码,表示服务器自身工作正常,访问后端服务器时发生了错误,但具体的错误原因也是不知道的
503 Service Unavailable 表示服务器当前很忙,暂时无法响应服务,我们上网时有时候遇到的“网络服务正忙,请稍后重试”的提示信息就是状态码503。是一个“临时”的状态,很可能过几秒钟后服务器就不那么忙了,可以继续提供服务,所以503响应报文里通常还会有一个“Retry-After”字段,指示客户端可以在多久以后再次尝试发送请求
请求头和响应头的结构是基本一样的,唯一的区别是起始行
请求行或状态行再加上头部字段集合就构成了HTTP报文里完整的请求头或响应头,对比两个示意图:
头部字段是key-value的形式,key和value之间用 :分隔,最后用CRLF换行表示字段结束。比如在“Host:127.0.0.1”这一行里key就是“Host”,value就是“127.0.0.1”
HTTP头字段非常灵活,不仅可以使用标准里的Host、Connection等已有头,也可以任意添加自定义头,这就给HTTP协议带来了无限的扩展可能。不过使用头字段需要注意下面几点:
常用头字段
HTTP协议规定了非常多的头部字段,实现各种各样的功能,但基本上可以分为四大类:
几个最基本的头字段:
Date 通用字段,通常出现在响应头里,表示HTTP报文创建的时间,客户端可以使用这个时间再搭配其他字段决定缓存策略
Cache-Control 用于指定缓存指令,缓存指令是单向的(响应中出现的缓存指令在请求中未必会出现),且是独立的(一个消息的缓存指令不会影响另一个消息处理的缓存机制)
Host 请求字段 告诉服务器这个请求应该由哪个主机来处理,当一台计算机上托管了多个虚拟主机的时候,服务器端就需要用Host字段来选择,有点像是一个简单的“路由重定向”
例如在127.0.0.1上有三个虚拟机:www.chrono.com、www.metroid.net 和 origin.io 那么当使用域名的方式访问时,就必须要用Host字段来区分这三个IP相同但域名不同的网站,否则服务器就会找不到合适的虚拟主机,无法处理
User-Agent 请求字段,发送请求的浏览器类型、操作系统等信息
Accept 请求字段,客户端可识别内容类型列表,用于指定客户端接收哪些类型信息
Server 响应字段,只能出现在响应头里。它告诉客户端当前正在提供Web服务的软件名称和版本号,例如“Server: openresty/1.15.8.1”,即使用的是OpenResty 1.15.8.1
Server字段也不是必须要出现的,因为这会把服务器的一部分信息暴露给外界,如果这个版本恰好存在 bug,那么黑客就有可能利用bug攻陷服务器。所以,有的网站响应头里要么没有这个字段,要么就给出一个完全无关的描述信息
比如GitHub,它的Server字段里就看不出是使用了Apache还是Nginx,只是显示为“GitHub.com”
实体字段 Content-Length,它表示报文里body的长度,也就是请求头或响应头空行后面数据的长度。服务器看到这个字段,就知道了后续有多少数据,可以直接接收。如果没有这个字段,那么body就是不定长的,需要使用chunked方式分段传输
实体字段 Content-Type发送给接收者实体正文媒体类型HTTP COntent-Type 对照表
Expires ,实体报头给出响应过期的日期和时间