本文总结了与Scrapy框架相关的一些开源工具
项目地址:https://github.com/scrapy/scrapyd
Scrapyd 是一个运行 Scrapy 爬虫程序的服务
pip install scrapyd
scrapyd # 启动服务
项目地址:https://github.com/djm/python-scrapyd-api
一个 Scrapyd API 的python封装
pip install python-scrapyd-api
from scrapyd_api import ScrapydAPI
scrapyd = ScrapydAPI('http://localhost:6800')
项目地址:https://github.com/dequinns/ScrapydArt
ScrapydArt在Scrapyd基础上新增了权限验证、筛选过滤、排序、数据统计以及排行榜等功能,并且有了更强大的API
pip install scrapydart
$ scrapydart # 启动
项目地址:https://github.com/my8100/scrapydweb
功能特性:
Scrapyd 集群管理
Scrapy 日志分析
支持所有 Scrapyd API
web UI 支持 Basic Auth
pip install scrapydweb
$ scrapydweb -h # 初始化
$ scrapydweb # 启动
管理页面:http://127.0.0.1:5000
参考:
如何通过 Scrapyd + ScrapydWeb 简单高效地部署和监控分布式爬虫项目
项目地址:https://github.com/Gerapy/Gerapy
一款分布式爬虫管理框架
控制爬虫运行,
查看爬虫状态,
查看爬取结果,
项目部署,
主机管理,
编写爬虫代码
pip3 install gerapy
$ gerapy init
$ cd gerapy
$ gerapy migrate
$ gerapy runserver
参考:
scrapyd部署、使用Gerapy 分布式爬虫管理框架
项目地址:https://github.com/DormyMo/SpiderKeeper
一个scrapyd的可视化工具
pip install spiderkeeper
$ spiderkeeper # 启动
web ui : http://localhost:5000
分类 | 名称 | 简介 |
---|---|---|
爬虫框架 | Scrapy | 爬虫程序 |
服务端 | Scrapyd | Scrapy爬虫管理程序 |
服务端 | ScrapydArt | 增强版的 Scrapyd |
客户端 | ScrapydAPI | 对Scrapyd API的封装 |
客户端 | ScrapydWeb | 管理调度 Scrapyd |
客户端 | Gerapy | 管理调度 Scrapyd |
客户端 | SpiderKeeper | 管理调度 Scrapyd |