目录
1 HTTP协议格式和抓取
1.1 HTTP抓取
1.2 格式总结
2 请求的格式
2.1 请求行
2.2 请求头
2.3 空行
2.4 请求正文
3 响应的格式
3.1 首行
3.2 响应头
3.3 空行
3.4 响应正文
4 HTTP请求
4.1 认识URL
URL encode/decode
4.2 HTTP方法
5 HTTPS
5.1 SSL/TLS
HTTP是基于TCP处于应用层的一种协议,与传输层协议不同,它关注的不是像TCP那样的可靠传输,而是站在应用的角度,对传输的信息来具体的使用。HTTP广泛应用于手机APP和浏览器之中。
我们之前已经讨论过了关于TCP和UDP这两种协议了,而上述的两种协议是属于“二进制协议”,通常需要理解到二进制的bit位(例如TCP中的六位标志位,若代表ACK的那一位为1,则代表这一条为ACK)。
HTTP属于文本格式的协议,因此不需要去理解具体的二进制位,而只需要理解文本格式即可,也更方便用肉眼去观察。
而想要获取一些具体的HTTP交互过程中的信息,就需要一些抓包工具了。我们可以将这些抓包工具看做是一个代理 ,请求和响应都需要路过代理,这时候在代理上就很容易获取到请求和响应的详细信息了,我当前使用的是Fiddler。
Fiddler左侧是一个列表,显示了当前抓到的所有HTTP/HTTPS的数据报。
当选中左侧列表中的某个条目,双击的时候,右侧就会显示这个条目的详细信息。 其中上面的那部分是HTTP请求,下面的是HTTP响应。
但是我们会发现上述两个信息框里大半都是乱码信息,我们就需要选择Row这一选项来观察这些信息的本体,其它选项相当于Fiddler对数据进行了一些加工。以下就是请求原来的样子:
针对响应也是一样,但不一样的是响应是经过压缩的,所以还需要要经过解压缩之后才能看到本体
HTTP的请求分成四个部分:1、请求行;2、请求报头;3、空行;4、请求正文
请求行包括三部分,每一部分之间用空格隔开,它们分别是:
HTTP方法:大概,描述了这个请求想要干什么,例如get意思就是想从服务器获取到什么
URL:描述了要访问的网络上的资源具体是在哪
版本号:表示当前使用的HTTP的版本是什么,目前常用的版本是1.1
这一部分一般有很多行,每一行都是一个键值对,键和值之间通过 :空格 来分割。
请求头的结束标志
这一部分可有可无,有时候会存在有时候没有。
版本号:代表当前HTTP协议的版本
状态码:描述了这个响应是表示成功还是失败的,以及不同的状态码也描述了失败的原因,常见的如404
状态码的描述:通过一个或是一组简短的单词描述了当前状态码的含义
也是键值对结构,每个键值对占一行,每个键和值之间通过 :空格 进行分割。响应头中的键值对个数是不确定的,不同的键值对也代表了不同的关系。
响应头的结束标志
是服务器返回客户端的具体数据,可能会有各种不同的格式,其中最常见的格式就是HTNL。
有了以上的基础,我们下面就来详细聊一聊里面的内容吧!
URL的含义是“网络上唯一资源的地址符”就是我们在访问某个网站时具体的网址。既要明确主机是谁,又要明确主机上的哪个资源。
协议方案名:描述这个URL是给哪个协议用的
认证信息:体现用户名密码,但现在几乎已经不使用了
服务器地址:一个域名或是一个IP地址
端口号:描述了我们要访问服务器上的哪个应用程序,大部分情况下是被省略的,对于HTTP开头的URL,会默认使用80作为端口号
带层次文件路径:描述了要访问的资源是什么
查询字符串:本质上是浏览器/客户端给服务器传递的自定义信息,相当于对获取到的资源提出了进一步的要求
片段标识符:描述了要访问的当前HTML中具体的哪个子部分
当查询字符串中包含特殊字符,就需要对特殊字符进行转义,这个转义的过程就叫encode,反之就是decode
HTTP协议的方法有很多,其中常用的是GET和POST。
经典问题:谈谈GET和POST之间的区别
1.GET和POST本质上是没有区别对的!!!
2.通常情况下,GET是没有body的,它通过query string向服务器传递数据
3.通常情况下,POST通过body向服务器传递数据,但它没有query string
4.语义上的区别,GET通常用来获取数据,POST用来上传数据
5.GET通常是幂等的,POST通常不幂等
6.GET可以被缓存,POST不能被缓存(幂等才应该去缓存)
HTTPS与HTTP几乎没有区别,唯一的区别就是HTTPS在HTTP的基础之上引入了一个加密层。
因为之前的HTTP是明文传输的,这就导致的数据是容易被获取的同时也容易被篡改,最典型的就是当初的运营商劫持,感兴趣的小伙伴可以自行去百度,于是HTTPS在HTTP的基础上引入了加密层。
HTTPS中引用的加密层,称为SSL/TLS,这之中涉及到的加密操作主要有两种方式:
1、对称加密:使用同一个密钥可以进行加密也可以进行解密。
2、非对称加密:有两个密钥,分别是公钥和私钥,其中一个用来加密,另一个用来解密。