最近在学习scrapy,发现scrapy简单易学而且稳定高效,想架设了爬虫服务器供其他同事使用,发现scrapyd提供了很好的web接口,稍加改动就可以远程管理爬虫,下达爬虫 任务,监测爬虫状态。很是方便,便拿来研究:
使用pip安装
pip install scrapyd
cd c:\Python27\Scripts
远程启动爬虫需要给http://localhost:6800/schedule.json地址POST工程名称和爬虫名称
新建scrapyd-test.py文件,内容如下:
执行该文件:
说明爬虫已启动。
去页面查看下爬虫状态:
已经结束了,log里有详细日志,items为爬到的内容。
也可以去items目录下查看历史信息
基本的功能都有了。
http://scrapyd.readthedocs.org/en/latest/api.html