详解 `HTTP` 系列之一

前言

本文介绍的是HTTP的基础知识,包括HTTP的由来、HTTP的报文信息、状态码、HTTP三个版本的对比等。希望这篇简短的文章能对大家认识HTTP协议提供帮助。



HTTP的前世今生

HTTP 由来

当任意两台机器需要通信时,他们必须通过TCP/IP协议进行身份确认和保障通信安全,之后再进行数据通信,而HTTP属于它通信方式的一个子集,其他的还有FTP、Telnet等。

因此HTTP的工作完全是建立在TCP/IP协议簇之上的,中间或以DNS协议辅助寻址

详解 `HTTP` 系列之一_第1张图片

如果对DNS协议不了解的同学,请点此处

HTTP 基础信息

连接成功建立后,即可进行HTTP数据传输。通俗来讲,通信就类似于两个人在对话:要做的事、能做的事,这些信息都包含在请求报文或响应报文中。

报文简介:

  • 请求行/状态行:基本信息,包含请求的方法、请求的地址、协议版本等极重要信息
  • 请求头部/响应头部:要求的事,比如请求的数据格式、要不要存cookie、返回的数据格式等
  • 空行:特殊格式
  • 请求包体/响应包体:具体信息,如要上传的信息、服务器返回的信息等等
HTTP请求报文

请求报文由请求行、请求头部、空行 和 请求包体 4 个部分组成,如下图所示:

详解 `HTTP` 系列之一_第2张图片

请求行: 请求行由方法字段、URL 字段 和HTTP 协议版本字段 3 个部分组成,他们之间使用空格隔开。常用的 HTTP 请求方法有 GET、POST、HEAD、PUT、DELETE、OPTIONS、TRACE、CONNECT;

  • GET:当客户端要从服务器中读取某个资源时,使用GET 方法。GET 方法要求服务器将URL 定位的资源放在响应报文的数据部分,回送给客户端,即向服务器请求某个资源。使用GET 方法时,请求参数和对应的值附加在 URL 后面,利用一个问号(“?”)代表URL 的结尾与请求参数的开始,传递参数长度受限制。例如,/index.jsp?id=100&op=bind。
  • POST:当客户端给服务器提供信息较多时可以使用POST 方法,POST 方法向服务器提交数据,比如完成表单数据的提交,将数据提交给服务器处理。GET 一般用于获取/查询资源信息,POST 会附带用户数据,一般用于更新资源信息。POST 方法将请求参数封装在HTTP 请求数据中,以名称/值的形式出现,可以传输大量数据;

请求头部:

请求头部由关键字/值对组成,每行一对,关键字和值用英文冒号“:”分隔。请求头部通知服务器有关于客户端请求的信息,典型的请求头有:

  • User-Agent:产生请求的浏览器类型;
  • Accept:客户端可识别的响应内容类型列表;星号 “ * ” 用于按范围将类型分组,用 “ / ” 指示可接受全部类型,用“ type/* ”指示可接受 type 类型的所有子类型;
  • Accept-Language:客户端可接受的自然语言;
  • Accept-Encoding:客户端可接受的编码压缩格式;
  • Accept-Charset:可接受的应答的字符集;
  • Host:请求的主机名,允许多个域名同处一个IP 地址,即虚拟主机;
  • connection:连接方式(close 或 keepalive);
  • Cookie:存储于客户端扩展字段,向同一域名的服务端发送属于该域的cookie;

空行: 最后一个请求头之后是一个空行,发送回车符和换行符,通知服务器以下不再有请求头

请求包体: 请求包体不在 GET 方法中使用,而是在POST 方法中使用。POST 方法适用于需要客户填写表单的场合。与请求包体相关的最常使用的是包体类型 Content-Type 和包体长度 Content-Length;

Http 响应报文

HTTP 响应报文由状态行、响应头部、空行 和 响应包体 4 个部分组成,如下图所示:
详解 `HTTP` 系列之一_第3张图片

状态行: 状态行由 HTTP 协议版本字段、状态码和状态码的描述文本 3 个部分组成,他们之间使用空格隔开;

  • 状态码由三位数字组成,它能一定程度上代表服务器处理请求的状态。

  • Location:Location响应报头域用于重定向接受者到一个新的位置。例如:客户端所请求的页面已不存在原先的位置,为了让客户端重定向到这个页面新的位置,服务器端可以发回Location响应报头后使用重定向语句,让客户端去访问新的域名所对应的服务器上的资源;

  • Server:Server 响应报头域包含了服务器用来处理请求的软件信息及其版本。它和 User-Agent 请求报头域是相对应的,前者发送服务器端软件的信息,后者发送客户端软件(浏览器)和操作系统的信息。

  • Vary:指示不可缓存的请求头列表;

  • Connection:连接方式;

空行: 最后一个响应头部之后是一个空行,发送回车符和换行符,通知服务器以下不再有响应头部。

响应包体: 服务器返回给客户端的文本信息;



HTTP相应报文的状态码

RFC 规定 HTTP 的状态码为「三位数」,第一个数字定义了响应的类别,被分为五类:

1xx 信息类

接受的请求正在处理,信息类状态码。

2xx 成功
  • 200 OK 表示从客户端发来的请求在服务器端被正确请求。
  • 204 No content,表示请求成功,但没有资源可返回。
  • 206 Partial Content,该状态码表示客户端进行了范围请求,而服务器成功执行了这部分的 GET 请求 响应报文中包含由 「Content-Range」 指定范围的实体内容。
3xx 重定向
  • 301 moved permanently,永久性重定向,表示资源已被分配了新的 URL,这时应该按 Location 首部字段提示的 URI 重新保存。
  • 302 found,临时性重定向,表示资源临时被分配了新的 URL。
  • 303 see other,表示资源存在着另一个 URL,应使用 GET 方法获取资源。
  • 304 not modified,当协商缓存命中时会返回这个状态码。
  • 307 temporary redirect,临时重定向,和302含义相同,不会改变method
当 301、302、303 响应状态码返回时,
几乎所有的浏览器都会把 POST 改成 GET,并删除请求报文内的主体,
之后请求会自动再次发送 301、302 
标准是禁止将 POST 方法改变成 GET 方法的,但实际使用时大家都会这么做
4XX 客户端错误
  • 400 bad request,请求报文存在语法错误。
  • 401 unauthorized,表示发送的请求需要有通过 HTTP 认证的认证信息。
  • 403 forbidden,表示对请求资源的访问被服务器拒绝。
  • 404 not found,表示在服务器上没有找到请求的资源。
  • 405 Method Not Allowed,服务器禁止使用该方法,客户端可以通过options方法来查看服务器允许的访问方法
5XX 服务器错误
  • 500 internal sever error,表示服务器端在执行请求时发生了错误。
  • 502 Bad Gateway,服务器自身是正常的,访问的时候出了问题,具体啥错误我们不知道。
  • 503 service unavailable,表明服务器暂时处于超负载或正在停机维护,无法处理请求


HTTP的优缺点

HTTP 优点
  • 灵活可扩展: http非常灵活,在报文中没有做过多的限制,只要按照其规则可以自己定义字段,在传输中也不仅仅限于txt文本格式,也可以传输图片,视频,压缩包等等任意数据。

  • 可靠性: 因为http是基于tcp/ip传输的,因为tcp/ip是一个连接传输协议,因此是是一个可靠(可靠不是安全)的传输。

  • 无状态: 因为没有任何记录。可以减轻服务器的负担,能够更多的cpu和内存用来对外提供服务。因为无状态,对服务器无要求,因此可以组成集群。

HTTP 缺点
  • 无状态: 无状态也就导致每次请求都要确认身份,这将带来不必要的操作负担和资源消耗。(利用cookie技术解决此弊端)
  • 明文传输: HTTP采用的是明文进行信息传递,将会给信息被破译和泄露。(HTTPS很好的解决了这点)
  • 请求-问答模式: 此模式下只有一方发起请求,另一方才会相应,这涉及到频繁的连接断开操作。同时发起多个请求也会导致“队头阻塞”问题的出现。


HTTP三个版本的对比

为了解决HTTP在应用中的诸多问题,HTTP目前出现了三个大版本。

HTTP 1.0
  • 任何格式的内容都可以发送,这使得互联网不仅可以传输文字,还能传输图像、视频、二进制等文件。(明文传输)
  • 除了GET命令,还引入了POST命令和HEAD命令。
  • http请求和回应的格式改变,除了数据部分,每次通信都必须包括头信息(HTTP header),用来描述一些元数据。
  • 只使用 header 中的 If-Modified-Since 和 Expires 作为缓存失效的标准。
  • 不支持断点续传,也就是说,每次都会传送全部的页面和数据。
  • 通常每台计算机只能绑定一个 IP,所以请求消息中的 URL 并没有传递主机名(hostname)
HTTP 1.1
  • 引入了持久连接( persistent connection),即TCP连接默认不关闭,可以被多个请求复用,不用声明Connection: keep-alive。长连接的连接时长可以通过请求头中的 keep-alive 来设置。(不必要的保持会话早加大服务器的负担)
  • 引入了管道机制( pipelining),即在同一个TCP连接里,客户端可以同时发送多个 请求,进一步改进了HTTP协议的效率。(但还是会造成“队头阻塞”)
  • HTTP 1.1 中新增加了 E-tag,If-Unmodified-Since, If-Match, If-None-Match 等缓存控制标头来控制缓存失效。
  • 支持断点续传,通过使用请求头中的 Range 来实现。
  • 使用了虚拟网络,在一台物理服务器上可以存在多个虚拟主机(Multi-homed Web Servers),并且它们共享一个IP地址。
  • 新增方法:PUT、 PATCH、 OPTIONS、 DELETE。
HTTP 2.0
  • 二进制分帧: 这是一次彻底的二进制协议,头信息和数据体都是二进制,并且统称为"帧":头信息帧和数据帧。
  • 头部压缩: HTTP 1.1版本会出现 「User-Agent、Cookie、Accept、Server、Range」 等字段可能会占用几百甚至几千字节,而 Body 却经常只有几十字节,所以导致头部偏重。HTTP 2.0 使用 HPACK 算法进行压缩。
  • 多路复用: 复用TCP连接,在一个连接里,客户端和浏览器都可以同时发送多个请求或回应,且不用按顺序一一对应,这样子解决了队头阻塞的问题。
  • 服务器推送: 允许服务器未经请求,主动向客户端发送资源,即服务器推送。(解决了请求-问答模式的弊端)
  • 请求优先级: 可以设置传送的数据帧的优先级,让服务端先处理重要资源,优化用户体验。


结语

文中有些内容与图片来自于他们,包括上野宣老师的出版书籍《图解HTTP》,TianTianUP前辈的掘金博文,感谢两位及其他作者!


时间:2020/08/16 11:09
坐标:广东深圳


你可能感兴趣的:(详解 `HTTP` 系列之一)