(1)了解scrapd
(2)安装:
服务端:pip install scrapyd
客服端:pip install scrapyd-client
(3)启动scrapyd服务
①在scrapy项目路径下 启动scrapyd的命令:sudo scrapyd 或 scrapyd
②启动之后就可以打开本地运行的scrapyd,浏览器中访问本地6800端口可以查看scrapyd的监控界面
③点击job可以查看任务监控界面
(1)配置需要部署的项目:编辑项目的scrapy.cfg文件
[deploy:部署名(部署名可以自行定义)]
url = http://localhost:6800/
project = 项目名(创建爬虫项目时使用的名称)
(2)部署项目到scrapyd
在scrapy项目路径下执行:scrapyd-deploy 部署名(配置文件中设置的名称) -p 项目名称
部署成功之后就可以看到部署的项目
3、项目管理
(1)命令行管理
启动项目: curl http://localhost:6800/schedule.json -d project=项目名 -d spider=爬虫名
关闭爬虫: curl http://localhost:6800/cancel.json -d project=项目名 -d job=jobid
注:curl是命令行工具,如果没有则需要额外安装
(2)使用requests模块控制scrapy项目
import requests
# 启动爬虫
url = 'http://localhost:6800/schedule.json'
data = {
'project': 项目名,
'spider': 爬虫名,
}
resp = requests.post(url, data=data)
# 停止爬虫
url = 'http://localhost:6800/cancel.json'
data = {
'project': 项目名,
'job': 启动爬虫时返回的jobid,
}
resp = requests.post(url, data=data)
(3)Gerapy管理
1)Gerapy 是一款 分布式爬虫管理框架
2)安装:pip3 install gerapy -i https://pypi.douban.com/simple/
3)配置启动
①新建一个项目:gerapy init
执行完该命令之后会在当前目录下生成一个gerapy文件夹,进入该文件夹,会找到一个名为projects的文件夹
②对数据库进行初始化(在gerapy目录中操作),执行如下命令:gerapy migrate
对数据库初始化之后会生成一个SQLite数据库,数据库保存主机配置信息和部署版本等
③启动 gerapy服务:gerapy runserver
此时启动gerapy服务的这台机器的8000端口上开启了Gerapy服务,在浏览器中输入http://localhost:8000就能进入Gerapy管理界面,在管理界面就可以进行主机管理和界面管理
4)通过Gerapy配置管理scrapy项目
①配置主机
②配置项目