Scrapinghub试用报告

实验对象:scrapinghubs
实验目的:通过体验爬虫工具,进一步加深对数据检索的认识

目录
  1. scrapinghubs简介
  2. scrapy cloud试用报告
  • 在Scrapyinghub创建工程
  • 本地配置并连接到Scrapinghub
  • 使用scrapy cloud进行数据爬取
  1. portia试用报告
  • 新建portia工程
  • 选择爬取实体
  • 导入scrapy cloud
  1. 总结

1.Scrapinghub简介

Scrapinghub试用报告_第1张图片
scrapinghub首页

*简介

scrapinghub 帮助人们将网站转化为数据。
scrapinghub提供基于云的Web爬行平台和数据即服务。

* 以规模爬取网站

Scrapy Cloud是scrapinghub提供的基于云的Web爬行平台,可以方便人们轻松部署抓取工具并按需扩展,无须担心服务器、监控、备份或cron作业。目的是帮助更多的开发人员将网页转化为有价值的数据。
scrapinghub 还提供了丰富的附加组件,例如** protia **使用户无需编写代码,用点击的方式就可以扩展爬虫蜘蛛。其中,Crawlera可以帮助用户绕过反爬虫措施,从而更快的抓取大型网站。爬取的数据可以存储在scrapinghub提供的数据库中,并且可以使用api在应用程序中使用这些数据。

*数据即服务

scrapinghub还有许多网页爬取专家帮助用户爬取数据,用户可以即时访问所需的数据,解决复杂的爬网问题,并且节省时间和金钱。

scrapinghub的产品:
Scrapinghub试用报告_第2张图片
产品
竞争对手:
Scrapinghub试用报告_第3张图片
竞争者

2. scrapy cloud试用报告

2.1在Scrapinghub创建工程

登陆scrapinghub

scrapinghub支持google+账号登陆和Github账号登陆。


Scrapinghub试用报告_第4张图片
welcome
创建一个工程
Scrapinghub试用报告_第5张图片
create project

Scrapinghub试用报告_第6张图片
create

记录Api Key 和 project ID

Scrapinghub试用报告_第7张图片

2.2 本地配置并连接到scrapinghub

安装shub

pip install shub
Scrapinghub试用报告_第8张图片
shub install

shub是Scrapinghub命令行客户端。 它允许您部署项目或依赖关系,计划蜘蛛,并检索刮取的数据或日志,而不用离开命令行。

登陆shub

进入要上传到cloud 的工程目录后,登陆shub并输入api key

shub login
login

上传工程并输入project ID

shub deploy
Scrapinghub试用报告_第9张图片

Scrapinghub试用报告_第10张图片
shub deploy

2.3 使用scrapy cloud进行数据爬取

上传成功


Scrapinghub试用报告_第11张图片

选取一个爬虫并执行


Scrapinghub试用报告_第12张图片

Scrapinghub试用报告_第13张图片
run

执行结果
Scrapinghub试用报告_第14张图片

点击items requests log等可以查看爬取详细信息


Scrapinghub试用报告_第15张图片
结果

设置爬取时间间隔
Scrapinghub试用报告_第16张图片

存储到数据库


Scrapinghub试用报告_第17张图片

Scrapinghub试用报告_第18张图片
database

3.portia试用报告

  • 新建portia工程
    输入新建爬虫的名字


    Scrapinghub试用报告_第19张图片

    输入爬取的网址并打开


    Scrapinghub试用报告_第20张图片
  • 选择爬取实体
    通过点击按钮选取页面中需要爬取的实体


    Scrapinghub试用报告_第21张图片
  • 导入scrapy cloud
    可以选择导出代码或导入scrapy cloud


    Scrapinghub试用报告_第22张图片

4. 总结

在scrapinghub的试用过程中,我得出了以下感悟:

  • scrapy cloud是一款很方便易用的云端数据爬取工具,可以直观看出数据爬取的相关信息,并且可以很方便存储到数据库中。可以手动设置爬取次数和时间间隔,以及配置文件等。
  • pordia 可以节省手写代码的时间,但是不适合复杂的数据采集
  • 高级功能还是需要付费才能使用的

你可能感兴趣的:(Scrapinghub试用报告)