前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取

以孔夫子旧书网(http://www.kongfz.com/1004/)为例:

一.网站结构

1.网站截图说明

该网站为列表结构,可以通过识别列表的方式对全篇数据进行抽取。

前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取_第1张图片

网站列表页

 

2. 采集结果截图

前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取_第2张图片

采集数据结果

 

二. 配置模板

  1. 新建任务

前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取_第3张图片

新建任务

 

点击【下一步】,需要采集每一页检索结果并抽取数据,所以此处需要勾选【普通翻页】和【数据抽取】,如图:

前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取_第4张图片

新建采集任务

 

2.创建/选择表单

①创建表单

前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取_第5张图片

创建表单

 

②配置表单

根据所需内容,配置表单字段(即表头),此处配置了包括网页主键、作者名称、标题名称、价格等四个字段, 以配置发布时间(pubtime)为例:

前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取_第6张图片

配置表单

 

③数据抽取链接关联表单

选择刚才新创建的表单"孔夫子"

前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取_第7张图片

关联表单

 

3.字段定位

取值方法:由于此处活取的是列表页的数据,所以可以应用“识别列表”功能,直接取到列表数据,操作方法如下:

①点击“数据抽取-孔夫子”,按住ctrl+鼠标左键点击定位标题内容

前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取_第8张图片

定位标题

 

②按住Shift+鼠标左键继续点击,直到点击到选中整个第一条数据

前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取_第9张图片

定位第一条数据

 

③在软件的右下角可以看到“识别列表”按钮 ,此时点击“识别列表”,如下图,此时列表中的内容都已经选中。

前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取_第10张图片

定位全数据

 

④对每个字段进行取值,方法依然是:按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域。如:price字段,见下图:

前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取_第11张图片

字段定位

 

4.模板预览

鼠标右键点击“孔夫子”,然后点击“模板预览”

前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取_第12张图片

模板预览

 

5.过滤翻页链接

勾选标题过滤,过滤规则选择包含,填入"下一页"

前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取_第13张图片

过滤翻页

 

三.数据采集

1.连接数据库

前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取_第14张图片

连接数据库

 

2.创建数据表

前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取_第15张图片

创建数据表

 

3.选中数据表

关联数据表

4.开始采集

前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取_第16张图片

开始采集

 

5.采集结果

前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取_第17张图片

采集结果

你可能感兴趣的:(指导性文章,爬虫,数据采集)