Http协议揭秘

去年写私有栈的时候,就想分享出一个关于公有栈的分析,奈何中间一些琐事打断。现在重新拾起来,写一些内容,分享出来,很多技术本来没有那么难,但是越来越多的命名就显得越来越复杂!毕竟不命名点东西,就显得没有那么高大上了!我希望的是,更多人能以大白话的方式明白更多的道理。比如:http协议没有那么神秘!

三次握手、四次挥手不多说了,基于tcp的!如果不明白,可以看TcpClient这篇文章!这个东西没有那么困难。主要是什么呢。都是人为定义的,并不是定理,只要了解制定的规范就能整明白,哪怕就是对计算机一窍不通的,看看也就得了!

背景:分别抓取了get、post、file流的http请求数据!

、Post分析:

1.png

选取一个流的完整过程

2.png

前面几个没有什么特别需要说的,就是同步报文段、确认报文段等。

对于每个报文里面所包含的物理层、数据链路层、网络协议、传输控制层对应每个字节所表示的意义,可以参考我的另一篇文章TcpClient. ,
我就不再重复解析。只针对要点信息解析。

所以,根据以上进行了三次握手同步、确认同步、确认之后,接下来就是http的超文本传输协议了。

3.png
4.png

对于前四层是什么,我在 TcpClient.
里面也有讲,主要是一些源与目标机器之间的信息确认、报文段的标记等tcp相关的内容。

我们主要还是要看超文本传输协议:Hypertext Transfer Protocol。标记处蓝色的内容即超文本传输协议的内容。

5.png

1、开头即为请求类型,那么说明这个请求类型是比较关键的,跟平时的认知也是相关的,然后看红框的内容,16进制的20表示一个空格,也就是说:http协议中以 20空格作为分隔符(不是160空格)。

Post:50 4f 53 54

空格:20

6.png

2、紧跟在其后的是访问的url,同上也是以20空格作为分隔的。

Url:2f 61 70 69 2f 73 65 61 72 63 68 2f 72 65 70 6f 72 74 2f 65 6d 70 74 79 77 6f 72 64 73 2f

空格:20

7.png

3、http协议版本。这里有些不一样了,使用0d 0a作为分隔符,0d 0a查找16进制转换符号可以知道,分别表示的是“回车” 与 “换行”。

Request version:48 54 54 50 2f 31 2e 31

回车换行符:0d 0a

8.png

4、携带内容的数据类型Content-type,任然是0d 0a分隔符。

Content-Type:43 6f 6e 74 65 6e 74 2d 54 79 70 65 3a 20 61 70 70 6c 69 63 61 74 69 6f 6e 2f 6a 73 6f 6e

回车换行符:0d 0a

9.png

5、同样 user-agent,这个是携带客户信息的字段,比如告知的是什么样的浏览器,操作系统等。

User-Agent:55 73 65 72 2d 41 67 65 6e 74 3a 20 50 6f 73 74 6d 61 6e 52 75 6e 74 69 6d 65 2f 37 2e 31 36 2e 33 0d 0a

回车换行符:0d 0a

10.png

6、accept,表示response的时候,接收的是什么样的数据,这里明显 “*” 表示接收所有的数据。

Accept:41 63 63 65 70 74 3a 20 2a 2f 2a

回车换行符:0d 0a

11.png

7、用于针对request、response的缓存机制,具体内容可以自行百科,针对这里,
明显是说request请求no-cache,也就是每次都重新请求Cache-control

Cache-Control:43 61 63 68 65 2d 43 6f 6e 74 72 6f 6c 3a 20 6e 6f 2d 63 61 63 68 65

回车换行符:0d 0a

12.png

8、postman-token大概跟session类似的吧,反正都是字节流,自己篡改就好了。

13.png

9、host:

Host:48 6f 73 74 3a 20 31 30 2e 34 2e 34 30 2e 31 36 38 3a 38 38 30 36

回车换行符:0d 0a

14.png

10、Accept-Encoding:这是要声明浏览器的接收的压缩编码类型,这里是可以接受gzip、deflat的压缩类型。

Accept-Encoding:41 63 63 65 70 74 2d 45 6e 63 6f 64 69 6e 67 3a 20 67 7a 69 70 2c 20 64 65 66 6c 61 74 65

回车换行符:0d 0a

15.png

11、Content-Length:这个很明显就是请求的内容的长度,这里写的是62字节

Content-Length:43 6f 6e 74 65 6e 74 2d 4c 65 6e 67 74 68 3a 20 36 32

回车换行符:0d 0a

16.png

12、Connection:keep-alive,很明显长链接。

Connection:43 6f 6e 6e 65 63 74 69 6f 6e 3a 20 6b 65 65 70 2d 61 6c 69 76 65

0d 0a 0d 0a

回车换行符:0d 0a

标红处,有连续两个0d、0a,这个大概表示到头了吧,接下来就是结构体了。

接下来获取62个字节的内容,就是传输的信息

17.png

然后按照Content-Type进行编解码,日入这里是application/json,那么就是要把这些个流,解析成json格式。

、Get分析

同理,比如cookie,即在12之前的位置上写入cookie:key=value这样的形式。

此外,还有Upgrade-Insecure-Requests、Accept-Language、If-None-Match等,都是以这样的形式产生的,如下是某个Get请求:

18.png
19.png

这样的组合起来就是超文本协议了,注意,这是协议。

、文件流分析

20.png

此图是一个excel的文件请求流信息,关键信息在这里,标记了一些文件类型,也就是可以接受的文件类型是这样的

接下来是文件信息传输:


21.png

此时已经不是http的超文本传输协议了,而是高可靠的tcp传输协议,我们已经看不到对应的http信息投了,而是一些包含信息。用于client端解析接下来的输入流的。

超过了1514,发生了mtu分片,紧接着可能会有多个分片的报文信息,到达客户端之后,组合成一个文件输出流。

文件流传输完成后,会告知结尾

22.png

产生如此一个http协议通知,然后服务端等待客户端确认完成。只有60字节,去掉tcp头部等信息,仅剩下几个字节(20~40),说明就是通知用的。

后记,所以大家有没有发现:

一、http协议的格式很容易,分隔符也很容易,即“空格”与“回车换行”。然后最终还是基于tcp进行数据的push推送;

二、http携带的内容信息,很大部分不是我所需要的。咱们可以看一个比例,以第一个post请求为例,最终到达客户端时,我能用到的信息仅有62字节,但是总体却传输了3376字节,去掉tcp头部信息那么也有3260字节,有效数据利用率为

62 /3314 ~=0.018 ;

如果看过私有栈,那么会发现私有栈的头部信息,仅有25以内的字节,以dubbo为例,当时我看的那个版本的头部信息仅有22字节。像蚂蚁的sofa,京东的jcf,58的scf(14字节)估计也仅20字节以内。然后搭配私有的编解码方式,利用率比http协议高很多倍是肯定的了,大概是几十倍吧。

也许会说,如果我一个http信息发送的数据量大了,再加上未来网速越来越快,带宽不是问题?!比例会慢慢与私有栈持平,但是要知道,即使带宽不是问题,那么他的处理方式还是顺序处理的;另外,如果一个集群达到一定程度,即使是很小一部分的性能也要尽量压榨,因为一点的消耗,就能引起很大的不同。关键是看量级。

技术的使用方式上,主要还是要看应用场景,选择适合的才是最好的。技术的提升也是要慢慢迭代的。

所以,知道了这些,同学你是不是可以写一个Servlet了!

你可能感兴趣的:(Http协议揭秘)