12Python爬虫---Fiddler抓包工具使用

        • 一、什么是Fiddler
        • 二、爬虫与Fiddler不得不讲的事
        • 三、Fiddler基本原理与界面
          • 1、Fiddler工作原理
          • 2、Fiddler界面
          • 3、捕捉会话功能
        • 四、Fiddler的QuickExec的简单使用
          • 1、cls
          • 2、select
          • 3、?
          • 4、help
        • 五、Fiddler断点功能
            • 1、使用Fiddler的断点,可以实现的功能:
            • 2、Fiddler断点功能分为两种类型:
            • 3、设置响应断点方法有两种,一种通过可视化操作设置,另一种是通过命令去设置。

一、什么是Fiddler

  Fiddler是一种常见的抓包分析软件,我们可以利用Fiddler详细的对HTTP请求进行分析,并模拟对应的HTTP请求。
目前常见的抓包还有:
1)浏览器自带的调试工具,按F12调出,优点浏览器自带,缺点不能支持一些复杂的抓包。
2)Wireshark一款通用的抓包,功能比较齐全,因为功能太多,许多我们用不着,所以不推荐。

二、爬虫与Fiddler不得不讲的事

  • 一些稍复杂的网络请求中,我们直接看网址的变化是看不出规律,如果要自动爬取,就必须通过程序构造这些请求,就必须要进行分析这些请求的规律。分析过程中,始终抓包软件配合,将会变得更加方便。
  • 进行登录时,很多网页的真实登录处理并不是我们看到的网址,这些网址一般需要通过工具进行分析得出。

三、Fiddler基本原理与界面

1、Fiddler工作原理

12Python爬虫---Fiddler抓包工具使用_第1张图片
可以看出在没有Fiddler时,本地应用与服务器通信,直接向服务器发送Request请求,待服务器处理之后将处理结果返回本地,本地应用接受响应Response。
12Python爬虫---Fiddler抓包工具使用_第2张图片
有了Fiddler时,本地应用和服务器之间所有的Request,Response都将经过Fiddler,由Fiddler进行转发。由于所有的数据都会经过Fiddler,所以Fiddler能够截获这些数据没实现网络数据抓包。

2、Fiddler界面

12Python爬虫---Fiddler抓包工具使用_第3张图片

3、捕捉会话功能

(1)设置谷歌浏览器为代理服务器。

  • 点击设置,点击设置中的高级,再点击系统,打开代理设置

12Python爬虫---Fiddler抓包工具使用_第4张图片
12Python爬虫---Fiddler抓包工具使用_第5张图片

  • 代理设置中设置HTTP为127.0.0.1,端口号为8888,因为Fiddler监控的地址是127.0.0.1:8888
    12Python爬虫---Fiddler抓包工具使用_第6张图片

  • 打开Fiddler,点击Tools –>Options,在弹出的界面中选择HTTPS标签,将下方全部勾上。
    12Python爬虫---Fiddler抓包工具使用_第7张图片
    12Python爬虫---Fiddler抓包工具使用_第8张图片

  • 设置完成后,是用谷歌浏览器访问www.baidu.com,点击右侧的Statistics标签,显示一些页面统计信息,则表示配置完成。
    12Python爬虫---Fiddler抓包工具使用_第9张图片

四、Fiddler的QuickExec的简单使用

1、cls

cls清屏命令,输入该命令可以清空会话列表中所有会话

2、select

通过select命令可以选择出某一类型HTTP会话的功能。
比如选择出所有的html类型的HTTP会话,命令:select html
比如选择出所有的图片类型的HTTP会话,命令:select image

3、?

?命令可以查找出网址中包含某些字符的会话信息,比如“?baidu”可以查找出网址中包含“baidu”字符串的会话信息。

4、help

执行该命令可以打开Fiddler官方使用手册。
12Python爬虫---Fiddler抓包工具使用_第10张图片

五、Fiddler断点功能

通信过程中,在传递信息的中间进行修改后在传递,那么就可以使用Fiddler的断点功能。

1、使用Fiddler的断点,可以实现的功能:
  • 拦截响应数据,并进行相应修改。
  • 修改请求数据中的头信息,实现相应功能,比如模拟用户请求等功能。
  • 构建请求数据,随意进行数据提交。
2、Fiddler断点功能分为两种类型:
  • 响应时断点 Response断点
  • 请求时断点 Resquest断点

Fiddler如果设置了Response断点,返回信息首先会经过Fiddler,Fiddler接收到反馈信息之后,将数据截获并中断信息的传递,此时响应信息会暂时在Fiddler停留,本地应用暂时无法收到服务器的响应信息。这时,可以对服务器的响应信息进行相应的修改,我们可以将修改后的信息返回给本地应用。

3、设置响应断点方法有两种,一种通过可视化操作设置,另一种是通过命令去设置。

(1)单击Fiddler中的Rules–>Automatic Breakpoints–>After Responses
12Python爬虫---Fiddler抓包工具使用_第11张图片
此时再访问网站都会处于”响应在断点处被暂停”状态
断点2
此时可以对响应信息进行编辑后再返回给谷歌浏览器。
(2)取消响应中断设置
单击Fiddler中的Rules–>Automatic Breakpoints–>Disabled
12Python爬虫---Fiddler抓包工具使用_第12张图片

(3)命令设置断点

响应断点
bqafter www.baidu.com  对www.baidu.com进行响应断点
bqafter                取消响应断点

请求断点
bp  www.baidu.com      对www.baidu.com进行请求断点
bp                     取消请求断点

你可能感兴趣的:(Python,python爬虫)