HTTP初识,fiddler的使用,URL各部分介绍,QueryString

 

目录

 

一、什么是HTTP

二、抓包工具

三、请求的首行 URL

四、URL的各部分详细介绍


一、什么是HTTP

现在网页上,我们常见的是https,但是在二十年前是以http为主,这个协议也叫超文本传输协议,文本->字符串,“超文本”->图片/视频

HTTP响应:比如搜狗版的HTML,这个响应的内容,往往是一个html内容

一个网站分为前端+后端(太多了,说不过来)

前端:html(描述网页的结构),css(描述网页的样式),js(网页的行为,与用户的交互)vue esc就不说了

网页上HTML,css,js都是在浏览器执行的,都是访问服务器的时候,从服务器下载到浏览器上,然后才能显示运行。其他的程序都是要先安装,才能够使用,网页是随时用随时下载。网页优势:服务器随时更新,用户就可以用上新版本

劣势:性能比较有限,很难去有一些复杂操作。

二、抓包工具

抓包工具是一种代理:但是代理不仅仅是抓包工具,还有很多体现形式。

代理客户端的叫正向代理

代理服务器的叫反向代理

抓包的工具有很多:wireshark(功能很丰富,但是却很复杂)

                                 fiddler抓包工具(足以应对大部分场景,而且简单方便,但是功能比上面少点,但是够用)

1.直接搜索后安装

有验证码,为啥有复杂的验证码,互联网上80%带宽是被爬虫消耗的。

2.使用

左侧,当前机器上有哪些http数据报交互(不仅能抓浏览器,而且能抓到所有程序)

电脑程序在后台和服务器悄悄的交互(有的为了实现某种功能,有的偷拿你隐私)

右上角是请求的详情

右下角是响应的内容

刚好装完fidder之后,默认只能抓到http的数据,抓到了https,抓不到https(网络上httsp是主流)所以需要稍微设置一下,让fiddler可以抓到https。

1.点击tools->options->https勾上提示框(意思勾选有风险,一路yes)https是加密的,要显示,先解密,要信任保证书。

开了fidder,客户端服务器http,https的请求和响应都会在fidder过一遍(但有一些东西会影响fidder正确运行)

1.https要勾选正确

2.有的代理程序可能和fiddler冲突,确保使用fiddler的时候关闭其他代理。

3.有的浏览器插件,也可能和fiddler冲突

这个是抓去搜狗主页交互过程,上面这些标签页,站在不同视角来解析请求和响应,HTTP是文本协议,IP,TCP ,UDP二进制协议

HTTP加密后是二进制,但是我们勾选完毕就恢复成文本了。在这里我们点击row打开响应,当前http响应,经常会进行压缩(节省带宽)

http响应的内容通常是HTML,CSS,JS

这么看不太直观,干脆这么看

GET http://www.sougou.com/HTTP 11.1.     //1.首行
······
Accept:text/html,application/xhtml       //2.请求头

                                         //3.空行
body                                     //4.正文

响应报文

HTTP/1.1 200 ok.       //1.首行
Connection             //2.响应头
                       //3.空行
body                   //4正文

三、请求的首行 URL

GET https://www.sogou.com/HTTP/1.1

GET:方法

https://www.sogou.com:URL(请求,就是客户端给服务器发起的一个数据,这里要明确指出要访问的服务器是啥,要访问的服务器资源是什么,我们在JDBC中讲过:URL是唯一资源定位符,用来描述网络上的资源的)

HTTP/1.1 :版本号

RFC标准文档,TCP,UDP,IP,HTTP等网络协议,RFC标准文档有更精准的细节内容

http://user:[email protected]:80/dir/index.html?uid=1#ch1 (URL的完整细节)

简单来说
协议名://IP地址:端口号/路径?querystring ->(querystring是键值对的数据,k=uid这个东西,value则是uid等于的那个东西

http:协议名字(协议方案名)

user:pass@ :大部分现在这个地方是不用的,所以也不用多介绍

www.example.jp:可以是IP地址,也可以是域名,也可是外网IP(本身唯一),也可以是内网(访问局域网中的设备)还可以是环回IP(访问自己)

80:服务器端口号

dir/index.html?:访问服务器上哪个资源

uid=1:查询字符串(访问资源,带上啥样的参数)

ch1:片段标识符 (不常见,主要文档类文件)

这个东西就如同卖烤冷面

http://bhu:18/烤冷面?葱花=正常&香菜=苦苦放&醋=必须多放

->针对访问资源进行的补充说明,查询字符串,是键值对的格式,键值对之间用&分隔,键和值之间,用&分隔,键与值之间,使用=分隔,查询字符串以?开始。

实践上,URL来说,上述的几个部分,都是可以省略的~不是说哪个部分必须得保存,IP地址/域省略,此时相当于是访问当前服务器的地址。

访问B站主页,必须带有bilibili主页的html这个html又回触发一些其他的http请求,这些后续触发的http请求,就可以省略ip,省略IP就相当于用bilibili一样的IP。

四、URL的各部分详细介绍

端口号其实也可以省略(常见),省略时,浏览器会自动加上端口(这个端口号表示的是访问目标服务器的是哪个端口)

http:端口号80

https:端口号443

知名端口号:1-1024,都被一些常用的服务器(知名的老东西服务器瓜分了),因此一个网页部署于服务器的时候,往往遵守上述规则,把http绑定到8080,https绑定到443,浏览器访问你的服务器,就不必去多余指定窗口。

其实带层次的路径也能够省略

https://sogou.com/

如果省略相当于访问的是/

/称为根目录(目录是一个树形结构,根目录,就相当于树根一样,服务器提供的资源,也是类似于目录结构一样的,树形结构来组织的,有树,那么就会有树根,/就是树根->通常根节点就会对立服务器的对应主页(约定的规则)

查询字符串也可以没有(有和没有是看我们后端程序员们决定的)

query string中带有一些特殊符号,这些特殊符号,可能在url本身就有一定含义,就导致浏览器/服务器解析失败!(在c++中+就属于特殊符号,+是%2B,假如加号不去切换,就可能导致浏览器/服务器解析失败

/,?,&,=,#同理,都要转换,url的encode的本质转义字符(和我们的/n还不一样这种有自己的规则)

如:c++你好

把转换的内容的二进制的每字节,都用十六进制表示出来,然后每字节前面加一个%

你:十六进制是:E4BDA0

好:十六进制是:E5A5BD

最后会C%2B%2B%E4%BD%A0%E5%A5%BD

经过URL的encode之后,此时querystring就不会出现特殊含义的符号,浏览器和服务器才可以正常识别~

你可能感兴趣的:(http,网络协议,网络)