Scrapyd ScrapydWeb 简单高效地部署和监控分布式爬虫项目

@安装和配置
#先确保所有主机都已经安装和启动Scrapyd,需要将Scrapyd配置文件中的bind_address修改为bind_address=0.0.0.0,然后重启Scrapyd service

@安装scrapydweb
#pip install scrapyweb

@启动scrapydweb
#/usr/local/python3/bin/scrapydweb

@配置scrapydweb
#scrapyweb启动之后,会在本地目录生成一个配置文件
#启用 HTTP 基本认证
##ENABLE_AUTH = True
##USERNAME = ‘username’
##PASSWORD = ‘password’
#添加 Scrapyd server,支持字符串和元组两种配置格式,支持添加认证信息和分组/标签
SCRAPYD_SERVERS = [
‘127.0.0.1’,
# ‘username:password@localhost:6801#group’,
(‘username’, ‘password’, ‘localhost’, ‘6801’, ‘group’),
]

@访问web UI
#通过浏览器访问 http://127.0.0.1:5000

@运行爬虫
#通过下拉框依次选择 project,version 和 spider。
#支持传入 Scrapy settings 和 spider arguments。
#支持创建基于 APScheduler 的定时爬虫任务。(如需同时启动大量爬虫任务,则需调整 Scrapyd 配置文件的 max-proc 参数)
#支持在 Scrapyd server 集群上一键启动分布式爬虫。
Scrapyd ScrapydWeb 简单高效地部署和监控分布式爬虫项目_第1张图片

你可能感兴趣的:(Python)