【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程

本文以谷歌浏览器为例子,本文只用到了Xpath,正则,爬虫可以有css选择器的插件,可自己操作一下css选择器的下载使用

目录

  • 1. 安装Xpath插件
  • 2. 使用Xpath插件
  • 3. 安装正则表达式插件
  • 4. 使用正则表达式插件
  • 5. F12抓包,CSDN评论为例子
    • 5.1 Header
    • 5.2 Preview
  • 6. F12抓包,B站评论为例子

1. 安装Xpath插件

打开谷歌浏览器这里,打开扩展程序。
【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第1张图片
点击这里,进入谷歌插件应用中心

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第2张图片
在这里搜索Xpath

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第3张图片

我自己喜欢用这个,点击进去

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第4张图片
进行安装

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第5张图片
【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第6张图片

这样就安装成功了

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第7张图片
点击这个按钮,把xpath固定在输入框的右侧,方便使用的时候调用这个插件。

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第8张图片
这样就安装成功了。

2. 使用Xpath插件

以豆瓣为例子。
【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第9张图片
但我们一点击这个插件的时候
【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第10张图片

就会弹出这个黑色的xpath语法输入框,这个框左边是你输入的Xpath语法,右边的Xpath语法选择出来的结点数据。
【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第11张图片

当清楚好结点的Xpath语句之后,在左侧输入,就会匹配到这个结点数据了。

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第12张图片

浏览器也会高亮提示,你选择的结点数据。并且右侧也会显示选择的结点信息

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第13张图片
大概就是这个用法

3. 安装正则表达式插件

先打开这里
【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第14张图片
再打开这里

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第15张图片
搜索正则表达式的插件

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第16张图片
选择这一个插件

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第17张图片
添加到浏览器上

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第18张图片
这样就成功了安装完了~

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第19张图片
然后把这个东西固定到输入栏的右侧,方便使用

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第20张图片

4. 使用正则表达式插件

还是使用正则作为例子
【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第21张图片
点击插件,就会弹出这个插件

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第22张图片

匹配所有的数字,和xpath一样,会高亮提示

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第23张图片
简单的使用就是这样了。

但是这个插件有个问题,就是一离开,就会自动收起,很不方便,可以自行下载其他的插件使用,这里i只是做一个列子而已。


另外,大家可以尝试自己安装css选择器的插件

5. F12抓包,CSDN评论为例子

首先随便找一篇博文进行评论的抓取

5.1 Header

打开NetWork找到对应的包,进行分析

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第24张图片
我们可以看到请求的urlhttp状态码请求方法之类的

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第25张图片

我们爬虫的话,一般都要用请求头去模拟这个过程,因为这个请求头可以起到一个伪装的作用,让服务器知道这是一个正常的访问而不是一个爬虫访问。所以请求头还是很重要的。

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第26张图片

这个就是传的参数,page就是页数,size就是页面大小。

5.2 Preview

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第27张图片
我们就能看见这个评论信息了。这些就是动态数据。这种不是固定在网页源代码里面的。

就是你右键查看网页源代码就看不到的

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第28张图片
是没有的,所以要用抓包来获取。
【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第29张图片

6. F12抓包,B站评论为例子

同样的,我们打开F12,找到这个评论的包。

注意B站这个是一边加载一边渲染的,就是必须滑倒下面有评论的地方,才能有请求的这个包。

比如说这种情况,这种情况是没有看见评论的,所以就是没有这个评论包的,因为根本就没有请求


我们要往下拉,知道看到评论,才会慢慢加载出来,这个评论包也会自然而然出现了。就能找到了!

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第30张图片

同样的这种请求的动态数据是在网页源代码里面是看不到的。

【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程_第31张图片

你可能感兴趣的:(Python爬虫,正则表达式,爬虫,html)