本文简述了关于前嗅ForeSpider爬虫中一些不为人知的知识点,包括高级功能,运行设置以及隐藏在模板配置中的一些神奇又强大的功能。
一、运行设置
运行设置中所有设置均是全局的设置。不单单对应一个频道。
1. 采集速度
采集速度是指爬虫爬取网页的速度,一般在购买代理IP之后才会使用到,但是如果网站防爬不强,也可以更改线程数目,以达到快速采集的目的。
①线程数目:线程数目越大,采集速度越快。
②采集间隔:采集间隔为隔多少秒采集一次,是防止被封IP的时候设置的。
2. 采集策略
采集策略是相对于日志而言的。一般在任务没有跑完,或者采集新增任务时候才会用到。
链接页面和数据页面的区别?
链接页面顾名思义是只有链接的页面,而数据页面是指只要有数据抽取的全部页面。
3. 任务装载
任务装载一般在两个频道一起采集的时候才会用到。
①装载顺序:
负载均衡:两个频道一起采集。
顺序优先:把一个频道先采集完,再采集另一个频道。
②装载方式:
同步:所有链接页加载完,再采数据页。
异步:加载一条链接,采集一条数据。
4. 网络超时
网络超时一般是指请求网页的过程中,等待接收及发送的时间,如果在这个时间内没有接收完成或者发送完成,需要重试的次数。
5. http设置
有些网站可能在某个特定的浏览器里面才可以可视化的配置,所以如果示例地址出不来,可以更改模拟浏览器版本试试看。
重定向:当网站发现是爬虫之后,可能会重定向到其他页面,这个时候可以试试调高重定向重试次数,来访问网站。
6. 加载设置
当页面是使用JavaScript写的,不解析无法采集的时候,可以进行选择。
完全禁用:全部都不解析,不采集。
完全不禁用:全部都解析,采集。
不完全禁用:直解析标签,不解析外联的。
SLL协议:Http/Https协议。有两条通道,禁用了之后只走不加密的通道,加快打开网站的速度。
7. 任务模式
一般选成手动开始,自动停止就可以。
8. 任务定时
需要定时启动及结束任务时可以设置。
9. 过滤设置
需要过滤大、小文件或者文件类型时使用。
二、高级功能
1. OAuth认证
OAuth认证是一种代理认证的方式,通过用户Key,用户secret,授权Key,授权secret四个参数进行认证,必须四个参数全部匹配上,才可以确定为合法。
2. 采集映射
采集映射是可以在频道建跳转的,为频道之间的相关关系。配置好一个频道之后,可以在频道之间进行跳转。
①采集映射规则:通过勾选相关规则,按照规则进行映射。
②映射列表:可以在映射列表中选择映射的频道。
采集映射和模板继承有什么关系呢?
模板继承必须有父亲节点和孩子节点,必须为孩子节点继承父亲节点。不能在频道之间跳转。
3. 独立控制
如没有打开独立存储功能,所有相同表结构的数据会存储在同一张数据表中(注:表单为数据表的表结构)。开启独立控制后,爬虫的表单会自动创建表关联,并对数据进行分别存储。
独立存储命名:“频道ID+表单名”。
4. 自动化控制
自动化控制为某频道的独立控制,包括自动扫描间隔、时间过滤开始时间,时间过滤的结束时间。
时间过滤:针对的是只想采集最新数据的用户,可以精确地控制采集时间。
5. 关联变量
关联变量中可以放字符串等,该变量可以动态改变。
三、其它神奇功能
在ForeSpider中,还有许多不为人知的神奇而强大的功能,大家发现了没?
1. 全局脚本
全局脚本是所有频道共有的脚本,需要写全局脚本的时候注意安全性。
2. 网页编码
当模拟浏览器无法显示网页时,可以检查一下是不是网页编码的问题,可以通过改变网页编码(gbk,utf8),显示当前页面。
3. 默认数据抽取
插入: 多一条算一条插入,一般默认为插入。更新:数据表中已经存在数据,需要采集新数据的时候,可以选择更新。
追加:统计某条数据,出现的次数的时候,不需要每一条都入库,选择之后可以只入库一次,在数据库中,可以统计该条数据出现的次数。
更新失败插入:数据表里已经存在数据,但是更新失败了,可以选择更新失败插入,这个时候就可以再次入库了。
4. 快速建表
在数据抽取页面下的“创建表单”按钮,点击之后就可以进行快速建表了。
这些隐秘而伟大功能什么时候才会用到,大家学会了吗?有问题欢迎各种方式的咨询哦~
前嗅大数据——深度大数据专家
前嗅(www.forenose.com)是首个深度大数据专家。
提供数据采集-分析-处理-管理-营销-应用,
自主知识产权的全套大数据产品。