爬虫002

工欲善其事必先利其器

对于工具的选择,上一话有提到,F12的检查可以让我们更快捷的找到我们所需要的。下面为大家介绍一款神器Fiddler

Fiddler是一款强大的WEB调试工具,它能记录所有客户端和服务器的HTTP请求。Fiddler启动的时候,默认IE的代理设为了128.0.0.1:8888,而其他浏览器是需要手动设置。

工作原理

Fiddler是以代理web服务器的形式工作的,它使用代理地址为128.0.0.1,端口为8888。


在网上下载Fiddler安装后,就可以使用工具来获取你想要得到的信息。

Fiddler界面

请求(request)部分详解

1、headers:显示客户端发送到服务器的HTTP请求header,显示为一个分级视图,包含了web客户端信息、cookie、传输状态等。
2、TextView:显示POST请求的body部分为文本
3、WebForms:显示请求的GET参数和POST body内容
4、HexView:用十六进制数据显示请求
5、Auth:显示响应 header 中的 Proxy-Authorization(代理身份验证) 和 Authorization(授权) 信息
6、Raw:将整个请求显示为纯文本
7、JOSN:显示JOSN格式文件
8、XML:如果请求的 body 是 XML 格式,就是用分级的 XML 树来显示它。

响应(response)部分详解

1、Transformer —— 显示响应的编码信息。
2、Headers —— 用分级视图显示响应的 header。
3、TextView —— 使用文本显示相应的 body。
4、ImageVies —— 如果请求是图片资源,显示响应的图片。
5、HexView —— 用十六进制数据显示响应。
6、WebView —— 响应在 Web 浏览器中的预览效果。
7、Auth —— 显示响应 header 中的 Proxy-Authorization(代理身份验证) 和 Authorization(授权) 信息。
8、Caching —— 显示此请求的缓存信息。
9、Privacy —— 显示此请求的私密 (P3P) 信息。
10、Raw —— 将整个响应显示为纯文本。
11、JSON - 显示JSON格式文件。
12、XML —— 如果响应的 body 是 XML 格式,就是用分级的 XML 树来显示它 。

接下来让我们真正迈向我们的爬虫之路吧!

下一话urllib2库的使用

你可能感兴趣的:(爬虫002)