HTTP协议原理+实践 Web开发工程师必学（笔记）

1.1导学开始

数据内容传输都是通过http协议的。

需要理解http

http很重要

提升自身价值

简单的例子：浏览器中输入网页，ajax数据，img加载图片

Cache-Control？

缓存的验证

深入到TCP

Nginx使用

准备：http这个概念

1.2内容介绍

image.png

2.1五层网络模型介绍

一、经典五层模型
1、应用层：为应用软件提供了很多服务，构建于tcp协议之上，屏蔽网络传输相关细节。
（1）http，ftp…
2、传输层：向用户提供可靠的端到端（end-to-end）服务
（1）如tcp，udp
（2）传输层向高层屏蔽了下层数据通信的细节
————底三层————
3、网络层：为数据在结点之间传输创建逻辑链路。
4、数据链路层：在通信的实体间建立数据链路连接。
5、物理层：定义物理设备如何传输数据。
（1）如电脑硬件，网卡端口，网线，光缆。

image.png

2.2HTTP协议的发展历史

HTTP/0.9

只有一个Get命令
没有Header等描述数据的信息
服务器发送完毕，就关闭TCP连接

HTTP/1.0

增加了很多命令
增加了status code和header
多字符集支持、多部分发送、权限、缓存等

HTTP/1.1

持久连接
pipeline
增加host和其他一些命令

HTTP2

所有数据以二进制传输
同一个连接里面发送多个请求不再需要按照顺序来
头信息压缩以及推送等提高效率的功能

2.3HTTP的三次握手

一、tcp connection
1、http只有请求和响应的概念，没有连接的概念，靠tcp来连接请求。
2、一个tcp连接可以发送多个http请求。1.0请求发送就会就断开了，1.1保持连接，减少Tcp开销，只要开一个TCP连接。
3、三次握手
（1）防止服务器开启一些无用的连接

image.png

二、wireshark抓包：网络层、tcp层、http层都可以抓到
charles是抓到http层

2.4 URI、URL、URN

1、Uniform Resource Identifier 统一资源标识符
2、用来唯一标识互联网上的信息资源
3、包含URL、URN
二、URL
1、Uniform Resource Locator 统一资源定位符
2、http://user:[email protected]:80/path?query=string#hash
3、此类格式的都叫做url，比如ftp协议、 file

`protocol :// hostname[:port] / path / [;parameters][?query]#fragment`

protocol（协议）
指定使用的传输协议，下表列出 protocol 属性的有效方案名称。最常用的是HTTP协议，它也是目前WWW中应用最广的协议。
file 资源是本地计算机上的文件。格式file:///，注意后边应是三个斜杠。
ftp 通过 FTP访问资源。格式 FTP://
http 通过 HTTP 访问该资源。格式 HTTP://
https 通过安全的 HTTPS 访问该资源。格式 HTTPS://

hostname（主机名）

是指存放资源的服务器的域名系统(DNS) 主机名或 IP 地址。有时，在主机名前也可以包含连接到服务器所需的用户名和密码（格式：username:password@hostname）。

port（端口号）

整数，可选，省略时使用方案的默认端口，各种传输协议都有默认的端口号，如http的默认端口为80。如果输入时省略，则使用默认端口号。有时候出于安全或其他考虑，可以在服务器上对端口进行重定义，即采用非标准端口号，此时，URL中就不能省略端口号这一项。

path（路径）

由零或多个“/”符号隔开的字符串，一般用来表示主机上的一个目录或文件地址。

parameters（参数）

这是用于指定特殊参数的可选项。

query(查询)

可选，用于给动态网页（如使用CGI、ISAPI、PHP/JSP/ASP/ASP。NET等技术制作的网页）传递参数，可有多个参数，用“&”符号隔开，每个参数的名和值用“=”符号隔开。

fragment（信息片断）

字符串，用于指定网络资源中的片断。例如一个网页中有多个名词解释，可使用fragment直接定位到某一名词解释

三、URN
1、Uniform Resource Name，永久统一资源定位符
2、在资源移动之后还能被找到
3、目前还没有非常成熟的使用方案。

2.5http报文格式

image.png

报文主要分为起始行、首部、主体。

起始行

在请求报文中，起始行包含了HTTP的Method、路由地址和HTTP协议版本，在响应报文中则是HTTP协议版本和Status Code如上图

首部：后续详细讲

主体

HTTP请求中返回的内容。

HTTP方法

用来定义对资源的操作
常用有GET、POST等
从定义上讲有各自的语义

HTTP CODE，定义服务器对请求的处理结果

各个区间的CODE有各自的语义，
如100-199之间代表这个操作需要持续的进行，
200-299之间代表操作是成功的，
300-399之间代表重定向，
400-499之间代表发送的请求有问题，
500-599之间代表服务器出现了错误。
好的HTTP服务可以通过CODE判断结果

2.6 实现一个最简单的http服务（nodejs）

const http = require('http')

http.createServer(function (request, response) {
  console.log('request come', request.url)

  response.end('123')

}).listen('2333')

console.log('server listening on 2333')

3.1认识http客户端

一、浏览器是最常用的http客户端
二、查看http请求, terminal
1、curl baidu.com。curl只是发送请求，并返回，不会对页面进行渲染
2、curl www.baidu.com
3、curl -v www.baidu.com
可以看到dns解析后的ip地址。

3.2跨域请求的限制与解决

跨域：指的是浏览器不能执行其他网站的脚本。它是由浏览器的同源策略造成的，是浏览器施加的安全限制。
所谓同源是指，协议、域名、端口均相同，不明白没关系，举个栗子：

http://www.123.com/index.html 调用 http://www.123.com/server.php （非跨域）

http://www.123.com/index.html 调用 http://www.456.com/server.php （主域名不同:123/456，跨域）

http://abc.123.com/index.html 调用 http://def.123.com/server.php （子域名不同:abc/def，跨域）

http://www.123.com:8080/index.html 调用 http://www.123.com:8081/server.php （端口不同:8080/8081，跨域）

http://www.123.com/index.html 调用 https://www.123.com/server.php （协议不同:http/https，跨域）

请注意：localhost和127.0.0.1虽然都指向本机，但也属于跨域

那么该如何解决跨域问题呢

JSONP使用方式

但是要注意JSONP只支持GET请求，不支持POST请求。

添加请求头
还是用Node环境进行测试，在当前目录下有server.js,server2.js,index.html。

贴上server.js（请求方）的代码

const http = require('http')
const fs = require('fs')

http.createServer(function (request, response) {
  console.log('request come', request.url)

  const html = fs.readFileSync('index.html', 'utf8')
  response.writeHead(200, {
    'Content-Type': 'text/html'
  })
  response.end(html)

}).listen('2333')

console.log('server listening on 2333')

server2.js（响应方）代码

const http = require('http')

http.createServer(function (request, response) {
  console.log('request come', request.url)

  response.writeHead(200, {
    'Access-Control-Allow-Origin': '*'
  })

  response.end('123')

}).listen('2334')
console.log('server listening on 2334')

index.html的代码




  
  
  
  Document

新建两个终端分别运行node server.js，node server2.js，打开localhost:2333，可以看到，我们当前从不同端口请求时，是属于跨域请求的，但是并没有跨域的报错，原因是因为我们在响应方里添加了请求头'Access-Control-Allow-Origin': '*'，如果去掉了这个请求头的话，则会报错

代理：

例如 www.123.com/index.html需要调用www.456.com/server.php，可以写一个接口www.123.com/server.php，由这个接口在后端去调用www.456.com/server.php并拿到返回值，然后再返回给index.html，这就是一个代理的模式。相当于绕过了浏览器端，自然就不存在跨域问题

3.3CORS跨域限制以及预请求验证

1、首先要说一下CORS跨域的限制，CORS允许的方法只有

GET HEAD POST

2、CORS允许的Content-Type只有

text/plain

multipart/form-data

application/x-www-form-urlencoded`

其他限制：请求头限制、XMLHttpRequestUpload对象均没有注册任何事件监听器、请求中没有使用ReadableStream对象

假如我们使用fetch预请求，并需要带一个自定义的请求头如：X-Test-Cors，那么必须要在服务端中定义好Access-Control-Allow-Headers: X-Test-Cors，否则则会报错。

同理，如果我们需要使用其他自定义的方法的话，我们同样需要在服务端中定义Access-Control-Allow-Methods: Post, Put, Delete, xxxxxxx

3.4缓存头Cache-Control

1、可缓存性

public：代表http请求经过的任何地方（代理服务器等等）都可以进行缓存。

private：代表只有发起请求的浏览器才可以进行缓存

no-cache：任何节点都不可以进行缓存

2、到期

缓存到期时间：max-age = （秒）

代理服务器使用：s-maxage = （秒）

指示客户机可以接收超出max-age时间的响应消息，max-stale在请求设置中有效，在响应设置中无效：`max-stale =

3、重新验证

must-revalidate：如果过期，则必须更新

proxy-revalidate
和must-revalidate差不多，是给缓存服务器使用的。

4、其他

no-store
no-cache从字面意义上很容易误解为不缓存，但是no-cache代表不缓存过期的资源，缓存会向服务器进行有效处理确认之后处理资源，更确切的说，no-cache应该是：do-not-serve-from-cache-without-revalidation

而no-store才是真正的不进行缓存
使用no-cache的目的就是为了防止从缓存中获取过期的资源。

no-transform
如果第三方网站不希望页面转码，可在页面中添加此协议，当用户进入时，会直接跳转至原网页

具体实践：Cache-Control缓存到期时间

const http = require('http')
const fs = require('fs')

http.createServer(function (request, response) {
    console.log('request come --- ', request.url)

    if (request.url === '/') {
        const html = fs.readFileSync('test.html', 'utf8')
        response.writeHead(200, {
            'Content-Type': 'text/html'
        })
        response.end(html)
    }

    if (request.url === '/script.js') {
        response.writeHead(200, {
            'Content-Type': 'text/javascript',
            'Cache-Control': 'max-age=200'
        })
        response.end('console.log("script loaded")')
    }

}).listen('8888')

console.log('server listening on 8888')

加入了Cache-Control': 'max-age=200'之后，浏览器（客户端）即可对静态资源进行缓存，效果如下图所示。过了200秒后，缓存失效，

image.png

3.5缓存验证Last-Modified和Etag

image.png

一、Last-Modified
1、上次修改时间，配合If-Modified-Since或者If-Unmodified-Since使用。
2、对比上次修改时间以验证资源是否需要更新。
二、Etag
1、数据签名
2、最常见的：对资源进行hash计算
3、对比资源的签名判断是否使用缓存

server.js

const http = require('http')
const fs = require('fs')

http.createServer(function (request, response) {
    console.log('request come --- ', request.url)

    const etag = request.headers['if-none-match'];
    if (etag === '777') {
        response.writeHead(304, {
            'Content-Type': 'text/javascript',
            'Cache-Control': 'max-age=200000, no-cache',
            'Last-Modified': '123',
            'Etag': '777'
        })
        response.writeHead()
    } else {
        response.writeHead(200, {
            'Content-Type': 'text/javascript',
            'Cache-Control': 'max-age=200000, no-cache',
            'Last-Modified': '123',
            'Etag': '777'
        })
        response.end('console.log("scripte loaded twice")')
    }


}).listen('8888')

console.log('server listening on 8888')

index.html

3.6 cookie和session

1、Cookie
通过Set-Cookie设置
下次请求会自动带上
键值对，可以设置多个

2、Cookie属性
max-age和expires设置过期时间
Secure只在https的时候发送
HttpOnly无法通过document.cookie访问

测试cookie返回的方式：
首先新建文件夹，然后新建server.js、index.html。
index.html





    
    
    Document



    content

server.js

const http = require('http')
const fs = require('fs')

http.createServer(function (request, response) {
    console.log('request come --- ', request.url)

    if (request.url === '/') {
        const html = fs.readFileSync('test.html', 'utf8')
        response.writeHead(200, {
            'Content-Type': 'text/html',
            'Set-Cookie': 'id=123'
        })
        response.end(html)
    }
}).listen('8888')

console.log('server listening on 8888')

1、我们通过在请求头中加入'Set-Cookie': 'id=123'，来将Cookie写入到浏览器，随后我们在index.html中使用console.log(document.cookie);来打印当前的cookie。

image.png

2、我们也可以在chrome开发者工具中的Application中可以查找到当前的cookie

image.png

3、Cookie !== Session，Cookie可以是Session的一种实现方式，但是Cookie和Session不是一一对应的，Session有许多别的实现。
4、cookie如果没有设置过期时间，浏览器关闭，就过期了
5、chrome工具，hostAdmin，可以改host，域名映射。
6、同一个主域名下，二级域名可以共享cookie
7、常用：使用cookie来保存session
8、只要是能定位到这个用户，就是一种session的实现方案

3.7HTTP长连接

在HTTP/1.0中默认使用短连接。也就是说，客户端和服务器每进行一次HTTP操作，就建立一次连接，任务结束就中断连接。当客户端浏览器访问的某个HTML或其他类型的Web页中包含有其他的Web资源（如JavaScript文件、图像文件、CSS文件等），每遇到这样一个Web资源，浏览器就会重新建立一个HTTP会话。

而从HTTP/1.1起，默认使用长连接，用以保持连接特性。使用长连接的HTTP协议，会在响应头加入这行代码：

Connection:keep-alive
在使用长连接的情况下，当一个网页打开完成后，客户端和服务器之间用于传输HTTP数据的TCP连接不会关闭，客户端再次访问这个服务器时，会继续使用这一条已经建立的连接。Keep-Alive不会永久保持连接，它有一个保持时间，可以在不同的服务器软件（如Apache）中设定这个时间。实现长连接需要客户端和服务端都支持长连接。

HTTP协议的长连接和短连接，实质上是TCP协议的长连接和短连接。

那么，长连接的优劣是什么？

由上可以看出，长连接可以省去较多的TCP建立和关闭的操作，减少浪费，节约时间。对于频繁请求资源的客户来说，较适用长连接。不过这里存在一个问题，存活功能的探测周期太长，还有就是它只是探测TCP连接的存活，属于比较斯文的做法，遇到恶意的连接时，保活功能就不够使了。在长连接的应用场景下，client端一般不会主动关闭它们之间的连接，Client与server之间的连接如果一直不关闭的话，会存在一个问题，随着客户端连接越来越多，server早晚有扛不住的时候，这时候server端需要采取一些策略，如关闭一些长时间没有读写事件发生的连接，这样可以避免一些恶意连接导致server端服务受损；如果条件再允许就可以以客户端机器为颗粒度，限制每个客户端的最大长连接数，这样可以完全避免某个蛋疼的客户端连累后端服务。

短连接对于服务器来说管理较为简单，存在的连接都是有用的连接，不需要额外的控制手段。但如果客户请求频繁，将在TCP的建立和关闭操作上浪费时间和带宽。

长连接和短连接的产生在于client和server采取的关闭策略，具体的应用场景采用具体的策略，没有十全十美的选择，只有合适的选择。
接下来在node环境中测试下chrome长连接的并发数限制

我们新建一个文件夹，里面新建三个文件，分别是：server.js、test.html、guo.jpg
test.html

const http = require('http')
const fs = require('fs')

http.createServer(function (request, response) {
    console.log('request come --- ', request.url)
    const html = fs.readFileSync('test.html', 'utf8')

    const img = fs.readFileSync('guo.jpg')
    if (request.url === '/') {
        response.writeHead(200, {
            'Content-Type': 'text/html',
            // 默认状态keep-alive 创建一个tcp链接 可以并发多个http请求
            // 'Connection': 'keep-alive',
            // 关闭之后 
            // 'Connection': 'close'
        })
        response.end(html)
    } else {
        response.writeHead(200, {
            'Content-Type': 'image/jpg',
            'Connection': 'close'
        })
        response.end(img)
    }
}).listen('8888')

console.log('server listening on 8888')

test.index.html

image.png

打开chrome的network可以发现，由于并发数的限制，最后一张图片得等前面的几个连接执行完毕，才能加载，因此有了很长的waterfull时间

3.8 数据协商

客户端请求时会声明希望拿到的数据格式和限制，服务端根据请求头返回不同的数据

1. Accept

声明想要的数据类型，[主类型]/[子类型] ，如text/html，image/jpg

2、Accept-Encoding

声明进行传输的编码方式，主要是数据压缩的算法，如gzip, deflate, br

3、Accept-Lanuage

声明希望返回信息的语言，如zh-CN,zh;q=0.9（q表权重，0~1）

4、User-Agent

声明浏览器和操作系统的相关信息

2. Content

1、Content-Type

声明返回的数据格式，如’X-Content-Type-Options’:‘nosniff’，可阻止浏览器自行猜测返回数据类型而引发的安全问题。

不同的文件后缀对应不同的Content-Type

2、Content-Encoding

声明返回的编码方式，即数据压缩

3、Content-Lanuage

声明返回的语言

这里先实践下在请求头中声明Content-Type和Content-Encoding。

先上代码，server.js：

const http = require('http')
const fs = require('fs')
const zlib = require('zlib')

http.createServer(function (request, response) {
  console.log('request come', request.url)

  const html = fs.readFileSync('index.html')
  response.writeHead(200, {
    'Content-Type': 'text/html',
    'Content-Encoding': 'gzip' //声明以gzip的方式传输
  })
  response.end(zlib.gzipSync(html))
  // response.end(html)

}).listen('2333')

console.log('server listening on 2333')

上述代码在请求头重声明了Content-Type和Content-Encoding，那么Content-Type我们肯定很好理解，他告诉了浏览器我们文本的格式是什么。

image.png

接下来我们先看下在运行node server.js启动之后，Network的截图。红框中上面的数字是文件在传输过程中加上HTTP传输信息后的体积，下面的数字则是body中内容的体积。那么在Content-Type声明gzip压缩方式，开启gzip压缩后，传输时的体积会比body的体积更小，从而加快传输的速度。

3.9redirect

重定向

通过 url 访问某个路径请求资源时，发现资源不在 url 所指定的位置，这时服务器要告诉浏览器，新的资源地址，浏览器再重新请求新的 url，从而拿到资源。

若服务器指定了某个资源的地址，现在需要更换地址，不应该立刻废弃掉 url，如果废弃掉可能直接返回 404，这时应该告诉客户端新的资源地址。

node server.js启动，发现url路径自动带了/new。

//server.js

const http = require('http')
const fs = require('fs')

http.createServer(function (request, response) {
  console.log('request come', request.url)

  if (request.url === '/') {
    response.writeHead(302, {
      'Location': '/new'
    })
    response.end()
  } else if (request.url === '/new') {
    response.writeHead(200, {
      'Content-Type': 'text/html'
    })
    response.end(`this is new Content`)
  }

}).listen('2333')

console.log('server listening on 2333')

可以看到根据定义的302临时重定向，页面自动的加载到了/new路由下的内容。
但如果我们需要永久重定向，把status code 改成301即可。

Redirect 301 和 302 的区别

302 临时跳转，每次请求仍然需要经过服务端指定跳转地址
301 永久跳转

302的情况
每次访问 locahost:8888，都要经过服务端跳转，服务端通过 console.log 可以看到 / → /new 两次请求。

const http = require('http')

http.createServer(function (request, response) {
  console.log('request come', request.url)

  if (request.url === '/') {
    response.writeHead(302, {
      'Location': '/new'
    })
    response.end()
  }
  if (request.url === '/new') {
    response.writeHead(200, {
      'Content-Type': 'text/html',
    })
    response.end('this is content')
  }
}).listen(8888)

console.log('server listening on 8888')

301 的情况
访问 locahost:8888，第一次经过服务端跳转，服务端通过 console.log 可以看到 / /new 两次请求；第二次服务端 console.log 只显示 /new ，没有再次经过服务器指定新的 Location。

response.writeHead(301, {
      'Location': '/new'
})

注意：使用 301 要慎重，一旦使用，服务端更改路由设置，用户如果不清理浏览器缓存，就会一直重定向。

设置了 301，locahost 会从缓存中读取，并且这个缓存会保留到浏览器，当我们访问 8888 都会进行跳转。此时，就算服务端改变设置也是没有用的，浏览器还是会从缓存中读取。

3.10 内容安全策略( CSP )

Content-Security-Policy 的作用：

使用白名单的方式告诉客户端（浏览器）允许加载和不允许加载的资源。

向服务器举报这种强贴牛皮鲜广告的行为，以便做出更加针对性的措施予以绝杀。

限制方式：

default-src 限制全局

指定资源类型
connect-src、manifest-src、img-src、font-src/media-src、frame-src、style-src、script-src…
更详细的文档请移步MDN的：内容安全策略( CSP )

http/https 协议

1.0 协议缺陷:

无法复用链接，完成即断开，重新慢启动和 TCP 3次握手
head of line blocking: 线头阻塞，导致请求之间互相影响

1.1 改进:

长连接(默认 keep-alive)，复用
host 字段指定对应的虚拟站点
新增功能:

断点续传
身份认证
状态管理
cache 缓存

Cache-Control
Expires
Last-Modified
Etag

2.0:

多路复用
二进制分帧层: 应用层和传输层之间
首部压缩
服务端推送

https: 较为安全的网络传输协议

证书(公钥)
SSL 加密
端口 443

TCP:

三次握手
四次挥手
滑动窗口: 流量控制
拥塞处理

慢开始
拥塞避免
快速重传
快速恢复

缓存策略: 可分为强缓存和协商缓存

Cache-Control/Expires: 浏览器判断缓存是否过期，未过期时，直接使用强缓存，Cache-Control的 max-age 优先级高于 Expires

当缓存已经过期时，使用协商缓存

唯一标识方案: Etag(response 携带) & If-None-Match(request携带，上一次返回的 Etag): 服务器判断资源是否被修改，
最后一次修改时间: Last-Modified(response) & If-Modified-Since (request，上一次返回的Last-Modified)

如果一致，则直接返回 304 通知浏览器使用缓存
如不一致，则服务端返回新的资源

Last-Modified 缺点：

周期性修改，但内容未变时，会导致缓存失效
最小粒度只到 s， s 以内的改动无法检测到

HTTP协议原理+实践 Web开发工程师必学（笔记）

1.1导学开始

1.2内容介绍

2.1五层网络模型介绍

2.2HTTP协议的发展历史

HTTP/0.9

HTTP/1.0

HTTP/1.1

HTTP2

2.3HTTP的三次握手

2.4 URI、URL、URN

protocol :// hostname[:port] / path / [;parameters][?query]#fragment

2.5http报文格式

起始行

首部：后续详细讲

主体

HTTP方法

HTTP CODE，定义服务器对请求的处理结果

2.6 实现一个最简单的http服务（nodejs）

3.1认识http客户端

3.2跨域请求的限制与解决

那么该如何解决跨域问题呢

代理：

3.3CORS跨域限制以及预请求验证

3.4缓存头Cache-Control

1、可缓存性

2、到期

3、重新验证

4、其他

3.5缓存验证Last-Modified和Etag

3.6 cookie和session

3.7HTTP长连接

3.8 数据协商

1. Accept

2、Accept-Encoding

3、Accept-Lanuage

4、User-Agent

2. Content

1、Content-Type

2、Content-Encoding

3、Content-Lanuage

3.9redirect

3.10 内容安全策略( CSP )

4.1

4.2

4.3

4.4

4.5

5.1

你可能感兴趣的:(HTTP协议原理+实践 Web开发工程师必学（笔记）)

`protocol :// hostname[:port] / path / [;parameters][?query]#fragment`