前言
本文介绍的是HTTP的基础知识,包括HTTP的由来、HTTP的报文信息、状态码、HTTP三个版本的对比等。希望这篇简短的文章能对大家认识HTTP协议提供帮助。
HTTP的前世今生
当任意两台机器需要通信时,他们必须通过TCP/IP协议进行身份确认和保障通信安全,之后再进行数据通信,而HTTP属于它通信方式的一个子集,其他的还有FTP、Telnet等。
因此HTTP的工作完全是建立在TCP/IP协议簇之上的,中间或以DNS协议辅助寻址。
如果对DNS协议不了解的同学,请点此处
连接成功建立后,即可进行HTTP数据传输。通俗来讲,通信就类似于两个人在对话:要做的事、能做的事,这些信息都包含在请求报文或响应报文中。
报文简介:
- 请求行/状态行:基本信息,包含请求的方法、请求的地址、协议版本等极重要信息
- 请求头部/响应头部:要求的事,比如请求的数据格式、要不要存cookie、返回的数据格式等
- 空行:特殊格式
- 请求包体/响应包体:具体信息,如要上传的信息、服务器返回的信息等等
请求报文由请求行、请求头部、空行 和 请求包体 4 个部分组成,如下图所示:
请求行: 请求行由方法字段、URL 字段 和HTTP 协议版本字段 3 个部分组成,他们之间使用空格隔开。常用的 HTTP 请求方法有 GET、POST、HEAD、PUT、DELETE、OPTIONS、TRACE、CONNECT;
- GET:当客户端要从服务器中读取某个资源时,使用GET 方法。GET 方法要求服务器将URL 定位的资源放在响应报文的数据部分,回送给客户端,即向服务器请求某个资源。使用GET 方法时,请求参数和对应的值附加在 URL 后面,利用一个问号(“?”)代表URL 的结尾与请求参数的开始,传递参数长度受限制。例如,/index.jsp?id=100&op=bind。
- POST:当客户端给服务器提供信息较多时可以使用POST 方法,POST 方法向服务器提交数据,比如完成表单数据的提交,将数据提交给服务器处理。GET 一般用于获取/查询资源信息,POST 会附带用户数据,一般用于更新资源信息。POST 方法将请求参数封装在HTTP 请求数据中,以名称/值的形式出现,可以传输大量数据;
请求头部:
请求头部由关键字/值对组成,每行一对,关键字和值用英文冒号“:”分隔。请求头部通知服务器有关于客户端请求的信息,典型的请求头有:
- User-Agent:产生请求的浏览器类型;
- Accept:客户端可识别的响应内容类型列表;星号 “ * ” 用于按范围将类型分组,用 “ / ” 指示可接受全部类型,用“ type/* ”指示可接受 type 类型的所有子类型;
- Accept-Language:客户端可接受的自然语言;
- Accept-Encoding:客户端可接受的编码压缩格式;
- Accept-Charset:可接受的应答的字符集;
- Host:请求的主机名,允许多个域名同处一个IP 地址,即虚拟主机;
- connection:连接方式(close 或 keepalive);
- Cookie:存储于客户端扩展字段,向同一域名的服务端发送属于该域的cookie;
空行: 最后一个请求头之后是一个空行,发送回车符和换行符,通知服务器以下不再有请求头
请求包体: 请求包体不在 GET 方法中使用,而是在POST 方法中使用。POST 方法适用于需要客户填写表单的场合。与请求包体相关的最常使用的是包体类型 Content-Type 和包体长度 Content-Length;
HTTP 响应报文由状态行、响应头部、空行 和 响应包体 4 个部分组成,如下图所示:
状态行: 状态行由 HTTP 协议版本字段、状态码和状态码的描述文本 3 个部分组成,他们之间使用空格隔开;
-
状态码由三位数字组成,它能一定程度上代表服务器处理请求的状态。
-
Location:Location响应报头域用于重定向接受者到一个新的位置。例如:客户端所请求的页面已不存在原先的位置,为了让客户端重定向到这个页面新的位置,服务器端可以发回Location响应报头后使用重定向语句,让客户端去访问新的域名所对应的服务器上的资源;
-
Server:Server 响应报头域包含了服务器用来处理请求的软件信息及其版本。它和 User-Agent 请求报头域是相对应的,前者发送服务器端软件的信息,后者发送客户端软件(浏览器)和操作系统的信息。
-
Vary:指示不可缓存的请求头列表;
-
Connection:连接方式;
空行: 最后一个响应头部之后是一个空行,发送回车符和换行符,通知服务器以下不再有响应头部。
响应包体: 服务器返回给客户端的文本信息;
HTTP相应报文的状态码
RFC 规定 HTTP 的状态码为「三位数」,第一个数字定义了响应的类别,被分为五类:
接受的请求正在处理,信息类状态码。
- 200 OK 表示从客户端发来的请求在服务器端被正确请求。
- 204 No content,表示请求成功,但没有资源可返回。
- 206 Partial Content,该状态码表示客户端进行了范围请求,而服务器成功执行了这部分的 GET 请求 响应报文中包含由 「Content-Range」 指定范围的实体内容。
- 301 moved permanently,永久性重定向,表示资源已被分配了新的 URL,这时应该按 Location 首部字段提示的 URI 重新保存。
- 302 found,临时性重定向,表示资源临时被分配了新的 URL。
- 303 see other,表示资源存在着另一个 URL,应使用 GET 方法获取资源。
- 304 not modified,当协商缓存命中时会返回这个状态码。
- 307 temporary redirect,临时重定向,和302含义相同,不会改变method
当 301、302、303 响应状态码返回时,
几乎所有的浏览器都会把 POST 改成 GET,并删除请求报文内的主体,
之后请求会自动再次发送 301、302
标准是禁止将 POST 方法改变成 GET 方法的,但实际使用时大家都会这么做
- 400 bad request,请求报文存在语法错误。
- 401 unauthorized,表示发送的请求需要有通过 HTTP 认证的认证信息。
- 403 forbidden,表示对请求资源的访问被服务器拒绝。
- 404 not found,表示在服务器上没有找到请求的资源。
- 405 Method Not Allowed,服务器禁止使用该方法,客户端可以通过options方法来查看服务器允许的访问方法
- 500 internal sever error,表示服务器端在执行请求时发生了错误。
- 502 Bad Gateway,服务器自身是正常的,访问的时候出了问题,具体啥错误我们不知道。
- 503 service unavailable,表明服务器暂时处于超负载或正在停机维护,无法处理请求
HTTP的优缺点
-
灵活可扩展: http非常灵活,在报文中没有做过多的限制,只要按照其规则可以自己定义字段,在传输中也不仅仅限于txt文本格式,也可以传输图片,视频,压缩包等等任意数据。
-
可靠性: 因为http是基于tcp/ip传输的,因为tcp/ip是一个连接传输协议,因此是是一个可靠(可靠不是安全)的传输。
-
无状态: 因为没有任何记录。可以减轻服务器的负担,能够更多的cpu和内存用来对外提供服务。因为无状态,对服务器无要求,因此可以组成集群。
- 无状态: 无状态也就导致每次请求都要确认身份,这将带来不必要的操作负担和资源消耗。(利用cookie技术解决此弊端)
- 明文传输: HTTP采用的是明文进行信息传递,将会给信息被破译和泄露。(HTTPS很好的解决了这点)
- 请求-问答模式: 此模式下只有一方发起请求,另一方才会相应,这涉及到频繁的连接断开操作。同时发起多个请求也会导致“队头阻塞”问题的出现。
HTTP三个版本的对比
为了解决HTTP在应用中的诸多问题,HTTP目前出现了三个大版本。
- 任何格式的内容都可以发送,这使得互联网不仅可以传输文字,还能传输图像、视频、二进制等文件。(明文传输)
- 除了GET命令,还引入了POST命令和HEAD命令。
- http请求和回应的格式改变,除了数据部分,每次通信都必须包括头信息(HTTP header),用来描述一些元数据。
- 只使用 header 中的 If-Modified-Since 和 Expires 作为缓存失效的标准。
- 不支持断点续传,也就是说,每次都会传送全部的页面和数据。
- 通常每台计算机只能绑定一个 IP,所以请求消息中的 URL 并没有传递主机名(hostname)
- 引入了持久连接( persistent connection),即TCP连接默认不关闭,可以被多个请求复用,不用声明Connection: keep-alive。长连接的连接时长可以通过请求头中的
keep-alive
来设置。(不必要的保持会话早加大服务器的负担) - 引入了管道机制( pipelining),即在同一个TCP连接里,客户端可以同时发送多个 请求,进一步改进了HTTP协议的效率。(但还是会造成“队头阻塞”)
- HTTP 1.1 中新增加了 E-tag,If-Unmodified-Since, If-Match, If-None-Match 等缓存控制标头来控制缓存失效。
- 支持断点续传,通过使用请求头中的
Range
来实现。 - 使用了虚拟网络,在一台物理服务器上可以存在多个虚拟主机(Multi-homed Web Servers),并且它们共享一个IP地址。
- 新增方法:PUT、 PATCH、 OPTIONS、 DELETE。
- 二进制分帧: 这是一次彻底的二进制协议,头信息和数据体都是二进制,并且统称为"帧":头信息帧和数据帧。
- 头部压缩: HTTP 1.1版本会出现 「User-Agent、Cookie、Accept、Server、Range」 等字段可能会占用几百甚至几千字节,而 Body 却经常只有几十字节,所以导致头部偏重。HTTP 2.0 使用
HPACK
算法进行压缩。 - 多路复用: 复用TCP连接,在一个连接里,客户端和浏览器都可以同时发送多个请求或回应,且不用按顺序一一对应,这样子解决了队头阻塞的问题。
- 服务器推送: 允许服务器未经请求,主动向客户端发送资源,即服务器推送。(解决了请求-问答模式的弊端)
- 请求优先级: 可以设置传送的数据帧的优先级,让服务端先处理重要资源,优化用户体验。
结语
文中有些内容与图片来自于他们,包括上野宣老师的出版书籍《图解HTTP》,
TianTianUP前辈的掘金博文,感谢两位及其他作者!
时间:2020/08/16 11:09
坐标:广东深圳