国内外爬虫软件对比

因为工作关系需要收集很多信息,每天大部分时间都花在浏览网页上。费时费力不说还没有多大成效。为了提高效率尝试用了国内外几款数据采集软件。以下是这几款软件的说明我使用的心得体会。

 

国外数据采集软件

 

DIFFBOT

使用DIFFBOT 采集网络数据不需要编写规则,全程可视化操作,简单易上手

三大功能模块BULK API, CRAWLBOT,  CUSTOM API (Analyze API, Article API, Product API, Image AP, Custom API).

国内外爬虫软件对比_第1张图片

                                                                                 Diffbot 功能

 

CUSTOM API 功能:输入需要采集的页面之后会产生页面预览,手动选取需要采集的模块,设定字段标题,链接,内容等,自动生成代码可以嵌入API

Custom API功能可以直接编辑采集到的内容(有attributeignorereplace三个功能)

 

采集结果如下:

国内外爬虫软件对比_第2张图片

Import.io

magic功能。输入需要采集的网址,会自动采集并按照设定好的字段(subtopic_valuesubtopic_linkquestion_linkitemvote_valueitemvote_value_numberslabel_1label_2author_linkitemanswer_valueslink_1label_3)进行排序显示,采集到的内容可以导出excel或者保存api

下图为采集知乎话题结果:

国内外爬虫软件对比_第3张图片


国内数据采集软件

火车头

火车头采集软件国内比较流行的一款采集器

功能较完善有分布式高速采集,多识别系统,支持多数据库,采集监控系统等。

功能很细导致可操作性不强,使用过程繁琐复杂。官网上有详细的教程对一个新手来说,尤其是刚刚接触采集器的站长,短时间内很难上手。

图片来自火车头官网:

国内外爬虫软件对比_第4张图片

神箭手云爬虫

神箭手云爬虫是我最近刚刚接触到的一种云端爬虫

操作步骤:购买规则-设置关键词-启动任务-自动云端采集-自动发布

和传统的采集器不同,神箭手云爬虫无需配置采集流程。规则市场中提供大量免费采集模板只需设置关键词即可。爬虫任务全程在云端执行无需开机操作,采集结果可自动发布到多个网站(目前支持wecenter,wordpree,discuz

开发者可以自己编写采集规则出售或自用,有详细的开发者文档可以创建专属于自己的爬虫。

使用截图如下

国内外爬虫软件对比_第5张图片

国内外爬虫软件对比_第6张图片国内外爬虫软件对比_第7张图片



你可能感兴趣的:(神箭手云爬虫)