ForeSpider数据采集软件之链接抽取

ForeSpider数据采集软件之链接抽取

前嗅ForeSpider数据采集软件是一款通用性互联网数据采集软件,软件几乎可以采集互联网上所有公开的数据,通过可视化的操作流程,从建表、过滤、采集到入库一步到位。同时软件内置了强大的爬虫脚本语言。如果有通过可视化采集不到的内容,都可以通过简单几行代码,实现强大的脚本采集。

很多用户说可视化的操作太简单,一定要看软件脚本的教程,所以今天给大家出一个爬虫脚本的链接抽取教程,满足用户更多的需求。

案例使用的是大众点评网,要抽取下面的翻页链接。

ForeSpider数据采集软件之链接抽取_第1张图片

 

第一步先看每一页的链接地址有没有规律。

ForeSpider数据采集软件之链接抽取_第2张图片

【第二页】

 ForeSpider数据采集软件之链接抽取_第3张图片

【第三页】

可以看到每一页的链接地址只有最后一个数字是不一样的,分别是对应的页码数,我们可以通过拼接的方式得到所有翻页的链接地址。下面写了拼接第二页链接地址的脚本:

ForeSpider数据采集软件之链接抽取_第4张图片 


第一行代码:定义一个url类的变量u

第二行代码:u.urlname是网页的链接地址,为其赋值

第三行代码:u.tmplid是这个链接抽取所要关联的模板id,这里是翻页,所以关联自身模板

第四行代码:这个链接抽取所对应的频道id

第五行代码:u.title是链接标题,为其赋值

第六行代码:将所拼接的链接添加到最后的结果中

上面只是解释每一行代码的作用,取到的只是第二页的链接,下面给大家放完整的内容:

 

ForeSpider数据采集软件之链接抽取_第5张图片

ForeSpider数据采集软件之链接抽取_第6张图片

 

通过FindClass的方式,从源码中得到总页数,然后使用for循环拼接每一页的链接。一共才用了12行(其中还包含了两行注释)就得到了自己想要的链接,是不是非常的简单呢,希望大家多看帮助文档,很多问题在帮助文档里就有了答案(偷偷告诉你我也经常遇到不会的然后去看文档)。

前嗅ForeSpider是一款非常简单好用的通用型数据采集软件,操作简单功能强大的同时还保证了采集速度,完全可以满足企业级用户需求。

你可能感兴趣的:(指导性文章)