网络编程（三）HTTP详解

超文本传输协议（HTTP，HyperText Transfer Protocol)是互联网上应用最为广泛的一种网络协议。所有的WWW文件都必须遵守这个标准。设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。1960年美国人Ted Nelson构思了一种通过计算机处理文本信息的方法，并称之为超文本（hypertext）,这成为了HTTP超文本传输协议标准架构的发展根基。Ted Nelson组织协调万维网协会（World Wide Web Consortium）和互联网工程工作小组（Internet Engineering Task Force ）共同合作研究，最终发布了一系列的RFC，其中著名的RFC 2616定义了HTTP 1.1。

http协议的作用

HTTP是一个客户端和服务器端请求和应答的标准（TCP）。客户端是终端用户，服务器端是网站。通过使用Web浏览器、网络爬虫或者其它的工具，客户端发起一个到服务器上指定端口（默认端口为80）的HTTP请求。（我们称这个客户端）叫用户代理（user agent）。应答的服务器上存储着（一些）资源，比如HTML文件和图像。（我们称）这个应答服务器为源服务器（origin server）。在用户代理和源服务器中间可能存在多个中间层，比如代理，网关，或者隧道（tunnels）。尽管TCP/IP协议是互联网上最流行的应用，HTTP协议并没有规定必须使用它和（基于）它支持的层。事实上，HTTP可以在任何其他互联网协议上，或者在其他网络上实现。HTTP只假定（其下层协议提供）可靠的传输，任何能够提供这种保证的协议都可以被其使用。

通常，由HTTP客户端发起一个请求，建立一个到服务器指定端口（默认是80端口）的TCP连接。HTTP服务器则在那个端口监听客户端发送过来的请求。一旦收到请求，服务器（向客户端）发回一个状态行，比如"HTTP/1.1 200 OK"，和（响应的）消息，消息的消息体可能是请求的文件、错误消息、或者其它一些信息。HTTP使用TCP而不是UDP的原因在于（打开）一个网页必须传送很多数据，而TCP协议提供传输控制，按顺序组织数据，和错误纠正。

通过HTTP或者HTTPS协议请求的资源由统一资源标示符（Uniform Resource Identifiers）（或者，更准确一些，URLs）来标识。

认识 url

url：就是我们平时说的“网址”

在这里插入图片描述

http协议的特点

1.基于请求/响应模型的协议。请求和响应必须成对，先有请求后有响应

2.http协议默认端口:80

3.简单快速：客户向服务器请求服务时，只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单，使得HTTP服务器的程序规模小，因而通信速度很快。

4.灵活：HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。

5.无连接：无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求，并收到客户的应答后，即断开连接。采用这种方式可以节省传输时间。

6.无状态：HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息，则它必须重传，这样可能导致每次连接传送的数据量增大。另一方面，在服务器不需要先前信息时它的应答就较快。

协议功能

HTTP协议（HyperText Transfer Protocol，超文本传输协议）是用于从WWW服务器传输超文本到本地浏览器的传输协议。它可以使浏览器更加高效，使网络传输减少。它不仅保证计算机正确快速地传输超文本文档，还确定传输文档中的哪一部分，以及哪部分内容首先显示(如文本先于图形)等。

HTTP是客户端浏览器或其他程序与Web服务器之间的应用层通信协议。在Internet上的Web服务器上存放的都是超文本信息，客户机需要通过HTTP协议传输所要访问的超文本信息。HTTP包含命令和传输信息，不仅可用于Web访问，也可以用于其他因特网/内联网应用系统之间的通信，从而实现各类应用资源超媒体访问的集成。

我们在浏览器的地址栏里输入的网站地址叫做URL (Uniform Resource Locator，统一资源定位符)。就像每家每户都有一个门牌地址一样，每个网页也都有一个Internet地址。当你在浏览器的地址框中输入一个URL或是单击一个超级链接时，URL就确定了要浏览的地址。浏览器通过超文本传输协议(HTTP)，将Web服务器上站点的网页代码提取出来，并翻译成漂亮的网页。

http协议的版本

HTTP/1.0,发送请求，创建一次连接，获得一个web资源，连接断开

HTTP/1.1，发送请求，创建一次连接，获得多个web资源，连接断开

Http协议的组成

Http协议由Http请求和Http响应组成，当在浏览器中输入网址访问某个网站时，你的浏览器会将你的请求封装成一个Http请求发送给服务器站点，服务器接收到请求后会组织响应数据封装成一个Http响应返回给浏览器。即没有请求就没有响应。

image.png

http请求包括:请求行、请求头、请求体

http响应包括:响应行、响应头、响应体

HTTP 请求：

HTTP请求由三部分构成: 请求行请求头空行请求正文

image.png

下面是一个报文:

image.png

①是请求方法，GET和POST是最常见的HTTP方法，除此以外还包括DELETE、HEAD、OPTIONS、PUT、TRACE。不过，当前的大多数浏览器只支持GET和POST
②为请求对应的URL地址，它和报文头的Host属性组成完整的请求URL，③是协议名称及版本号。
④是HTTP的报文头，报文头包含若干个属性，格式为“属性名:属性值”，服务端据此获取客户端的信息。
⑤是报文体，它将一个页面表单中的组件值通过param1=value1¶m2=value2的键值对形式编码成一个格式化串，它承载多个请求参数的数据。不但报文体可以传递请求参数，请求URL也可以通过类似于“/chapter15/user.html? param1=value1¶m2=value2”的方式传递请求参数。

常见的报文头的属性

字段	说明	示例
Accept	可接收的响应内容类型	Accept:text/plain (文本类型)
Accept-Charset	可接收的字符集	Accept-Charset: utf-8
Accept-Encoding	可接受的响应内容的编码方式	Accept-Encoding: gzip, deflate
Accept-Language	可接受的响应内容语言列表	Accept-Language: en-US
Accept-Datetime	可接受的按照时间来表示的响应内容版本	Accept-Datetime: Sat, 26 Dec 2015 17:30:00 GMT
Authorization	HTTP协议中需要认证资源的认证信息	Authorization: Basic OSdjJGRpbjpvcGVuIANlc2SdDE==
Cache-Control	请求/回复中的,是否使用缓存机制	Cache-Control: no-cache
Connection	客户端想要优先使用的连接类型	Connection: keep-alive Connection: Upgrade
Content-Length	以8进制表示的请求体的长度	Content-Length: 348
Content-Type	请求体的MIME类型	Content-Type: application/x-www-form-urlencoded
Date	发送该消息的日期和时间	Date: Dec, 26 Dec 2015 17:30:00 GMT
Expect	表示客户端要求服务器做出特定的行为	Expect: 100-continue
From	发起此请求的用户的邮件地址	From: [email protected]
Host	服务器域名和端口号,默认端口可省略	Host: www.itbilu.com:80 or www.itbilu.com
If-Match	主要用于PUT,实体匹配才可以操作	If-Match: "9jd00cdj34pss9ejqiw39d82f20d0ikd"
If-Modified-Since	资源未被修改的情况下返回304未修改	If-Modified-Since: Dec, 26 Dec 2015 17:30:00 GMT
User-Agent	浏览器的身份标识字符串	User-Agent: Mozilla/
Upgrade	要求服务器升级到一个高版本协议	Upgrade: HTTP/2.0, SHTTP/1.3, IRC/6.9, RTA/x11
Via	告诉服务器,这个请求是由哪个代理发出的	Via: 1.0 fred, 1.1 itbilu.com.com (Apache/1.1)
Referer	表示跳转到当前页面的之前的页面	Referer: http://itbilu.com/nodejs
Origin	发起一个针对跨域资源共享的请求	Origin: http://www.itbilu.com

更多请求头属性可以参考这篇文章:HTTP响应头和请求头信息对照表

请求报头每一行的格式：
Name：[空格]内容（一行就是一个属性，这里的“行”是以换行符作为标准）

Header 解析：

请求行： [请求方法] [url] [版本] （空格分开）

在这里插入图片描述

详解 Connection：

在这里插入图片描述

HTTP 是应用层协议，HTTP 用的是下层的 TCP 协议，而 TCP 是保证可靠性的。
TCP 为了保证可靠性，所以 TCP 是面向连接的。
TCP 面向连接之前必须先建立连接——> HTTP 向通信就要在底层先把连接建立好。
然后，发送方根据已经建立好的连接向服务器发送一个请求。
发过去之后对方就可以根据这个完整地读出来，对方再分析这个报文，然后对这个报文做出响应，HTTP 请求结束，之后断开连接。
这种一来一回的形式成为短连接（一次请求一个）

读请求：按行读取
什么时候读完报头？：读到空行
有效载荷：正文
报头和有效载荷分离：空行
紧挨着的几个请求如何分开：那么读一个请求时，在读取正文部分就要精确正文要读取多少，需要严格控制，所以报头中有一个属性——>Content-Length（正文的长度）

HTTP 响应：

在这里插入图片描述

第一部分:状态行,由HTTP/1.1(协议版本) 200(状态码) OK(状态码的描述) 构成
第二部分:响应头,由一些键值对构成,用来说明客户端要使用的一些附加信息
第三部分:空行,响应头后面的空行时必须的
第四部分:响应正文,服务器返回给客户端的文本信息

image.png

更多请求头属性可以参考这篇文章:HTTP响应头和请求头信息对照表

Header 解析：

状态行：

[版本号] [状态码] [状态码解释] （空格分开）

HTTP 方法

GET：获取资源
POST：传输实体主体
PUT：传输文件
HEAD：获得报文首部（相当于 GET 方法获得的资源去掉正文）
DELETE：删除文件
OPTIONS：询问支持的方法（客户端问服务器）
TRACE：追踪路径
OCONNECT：要求用隧道协议连接代理
LINK：建立与资源之间的联系
UNLINE：断开连接关系

GET 方法和 POST 方法核心点：

传参的数据量不一样，一个通过 url，一个通过正文，所以 POST 能传更多的数据；
GET 方法和 POST 方法传参位置上，可靠性问题。

HTTP 状态码

image.png

常见状态代码、状态描述、说明：

状态代码	状态描述
200	OK 客户端请求成功
204	No Content：无内容。服务器成功处理，但未返回内容。一般用在只是客户端向服务器发送信息，而服务器不用向客户端返回什么信息的情况。不会刷新页面。
206	Partial Content：服务器已经完成了部分GET请求（客户端进行了范围请求）。响应报文中包含Content-Range指定范围的实体内容
301	Moved Permanently：永久重定向，表示请求的资源已经永久的搬到了其他位置。
302	Found：临时重定向，表示请求的资源临时搬到了其他位置
303	See Other：临时重定向，应使用GET定向获取请求资源。303功能与302一样，区别只是303明确客户端应该使用GET访问
307	Temporary Redirect：临时重定向，和302有着相同含义。POST不会变成GET
304	Not Modified：表示客户端发送附带条件的请求（GET方法请求报文中的IF…）时，条件不满足。返回304时，不包含任何响应主体。虽然304被划分在3XX，但和重定向一毛钱关系都没有
400	Bad Request 客户端请求有语法错误，不能被服务器所理解
401	Unauthorized 请求未经授权，这个状态代码必须和WWW-Authenticate报头域一起使用
403	Forbidden 服务器收到请求，但是拒绝提供服务
404	Not Found 请求资源不存在，eg：输入了错误的URL
415	Unsupported media type：不支持的媒体类型
500	Internal Server Error 服务器发生不可预期的错误
503	Server Unavailable 服务器当前不能处理客户端的请求，一段时间后可能恢复正常

Http协议实现的原理机制

(1).整个流程步骤:

image

(2)域名解析过程:

image

(3).三次握手过程

(4).发起Http请求

(5).响应Http请求并得到HTML代码

(6).浏览器解析HTML代码

(7).浏览器对页面进行渲染呈现给用户

HTTP 总结

HTTP 如何做到将报头和有效载荷分开？
特殊符号：空行

HTTP 有没有向上交付？
理论上 HTTP 不需要向上交付，但是上一层还有用户，需要将正文、请求方法和属性等交给用户。

Http协议中Http1.0和1.1区别?
在http1.0中，当建立连接后，客户端发送一个请求，服务器端返回一个信息后就关闭连接，当浏览器下次请求的时候又要建立连接，显然这种不断建立连接的方式，会造成很多问题。

Http协议中302状态
http协议中，返回状态码302表示重定向。
这种情况下，服务器返回的头部信息中会包含一个 Location 字段，内容是重定向到的url

Http优化
利用负载均衡优化和加速HTTP应用
利用HTTP Cache来优化网站

Http与Https优缺点?
(1).通信使用明文不加密,内容可能被窃听,也就是被抓包分析
(2).不验证通信方身份,可能遭到伪装
(3).无法验证报文完整性,可能被篡改
Https就是Http加上加密处理(一般是SSL安全通信线路)+认证+完整性保护

如果传输的文件过大怎么办
服务器上返回的资源文件比较大，比如有些 js 文件大小可能就有几兆。文件过大就会影响传输的效率，同时也会带来带宽的消耗。怎么办呢？

常见的手段是，对文件进行压缩，减少文件大小。那压缩和解压缩的流程怎么实现呢？首先服务端需要能支持文件的压缩功能，其次浏览器能够针对被压缩的文件进行解压缩。浏览器可以指定 Accept-Encoding 来高速服务器我当前支持的编码类型 Accept-Encoding:gzip,deflate 那服务端会根据支持的编码类型，选择合适的类型进行压缩。常见的编码方式有：gzip/deflate
分割传输在传输大容量数据时，通过把数据分割成多块，能够让浏览器逐步显示页面。这种把实体主体分块的功能称为分块传输编码（Chunked Transfer Coding）。

每次请求都要建立连接吗？
在最早的 http 协议中，每进行一次 http 通信，就需要做一次 tcp 的连接。而一次连接需要进行 3 次握手，这种通信方式会增加通信量的开销。

image.png

所以在 HTTP/1.1 中改用了持久连接，就是在一次连接建立之后，只要客户端或者服务端没有明确提出断开连接，那么这个 tcp 连接会一直保持连接状态持久连接的一个最大的好处是：大大减少了连接的建立以及关闭时延。 HTTP1.1 中有一个 Transport 段。会携带一个 Connection:Keep-Alive，表示希望将此条连接作为持久连接。
HTTP/1.1 持久连接在默认情况下是激活的，除非特别指明，否则 HTTP/1.1 假定所有的连接都是持久的，要在事务处理结束之后将连接关闭，HTTP/1.1 应用程序必须向报文中显示地添加一个 Connection：close 首部。
HTTP1.1 客户端加载在收到响应后，除非响应中包含了 Connection：close 首部，不然 HTTP/1.1 连接就仍然维持在打开状态。但是，客户端和服务器仍然可以随时关闭空闲的连接。不发送 Connection：close 并不意味这服务器承诺永远将连接保持在打开状态。
管道化连接: http/1.1 允许在持久连接上使用请求管道。以前发送请求后需等待并收到响应，才能发送下一个请求。管线化技术出现后，不用等待响应亦可直接发送下一个请求。这样就能够做到同时并行发送多个请求，而不需要一个接一个地等待响应了。

image.png

网络编程（三）HTTP详解

http协议的作用

认识 url

http协议的特点

协议功能

http协议的版本

Http协议的组成

HTTP 请求：

常见的报文头的属性

HTTP 响应：

HTTP 方法

HTTP 状态码

Http协议实现的原理机制

HTTP 总结

你可能感兴趣的:(网络编程（三）HTTP详解)