爬虫入门基础-Firefox数据抓包

啥是 POST 请求呢?我们在做一些信息提交的时候 比如注册,登录这时候我们做的就是 POST 请求,POST 的参数不会直接放在 URL 上,会以 Form 表单的形式将数据提交给服务器。
我们来登录一下ip.16yun.cn:817
爬虫入门基础-Firefox数据抓包_第1张图片
当我们点击登录的时候,就开始将我们的账号密码请求给务器,可以看到我们请求了 登录 这个接口,请求方法就是 POST。
爬虫入门基础-Firefox数据抓包_第2张图片
而我们的请求参数是以 Form 表单的方式提交的
爬虫入门基础-Firefox数据抓包_第3张图片
拉到下面就可以看到
username 就是 test
password 就是 test
这些都是 POST 参数
可以发现,GET请求把请求参数都暴露在URL上,而POST请求的参数放在request body 里面
爬虫入门基础-Firefox数据抓包_第4张图片
这个就是请求头,Request Header,我们在做 HTTP 请求的时候,除了提交一些参数之外,我们还有定义一些 HTTP 请求的头部信息,比如 Accept、Host、cookie、User-Agent等等,这些参数也是我们在做爬虫要用到
,通过这些信息,欺骗服务器,告诉它我们是正规请求。
比如,我们可以在代码里面设置 cookie 告诉服务器我们就是在这个浏览器请求的会话,User-Agent 告诉服务器我们是浏览器请求的,说完我们这边的请求了.
接着我们再说说服务器的响应
你一定遇到过 404 页面吧,或者服务器错误返回个 502 ,这些 404 ,200,301,502
都是服务器的响应码,一般服务器给我们返回 200,那就说明,我们成功请求了。
再来说说响应头,当我们请求成功之后,服务器会给我们返回响应码之外,还有响应头,这个头主要是告诉我们数据以什么样的形式展现,告诉我们cookie的设置,还有一个,就是响应体了。
说白了,就是服务器返回给我们的数据,我们点击 Response 就可以看到相关的数据了
爬虫入门基础-Firefox数据抓包_第5张图片
看,这些就是服务器返回给我们的 HTML 源代码,对于不同的请求,我们获取到的数据是不一样的,除了 HTML的,也有 JSON 的,图片二进制数据等等,可以针对不同的情况,用不同的手段来解析这些数据
说到这里,想必你已经会在 Firefox 抓包了,所谓抓包,就是我们摸清了浏览器里面的套路,知道它是怎么搞,那么通过我们的请求,GET 请求也好,POST 请求也罢,只要知道请求方式,只要知道请求参数,只要知道请求头定义,只要知道怎么拿到返回的数据。

你可能感兴趣的:(爬虫入门基础-Firefox数据抓包)