centos系统下通过scrapyd部署python的scrapy

介绍

续接上篇:Python网络爬虫使用总结,本篇记录下我学习用scrapyd部署scrapy程序的过程。scrapyd的资料可以参见:scrapyd官网。

安装scrapyd

安装后会出现在python的bin目录下。
安装命令:pip install scrapyd
centos系统下通过scrapyd部署python的scrapy_第1张图片

验证scrapyd安装

在命令行执行执行scrapyd命令即可启动scrapyd,执行完命令后如下图
centos系统下通过scrapyd部署python的scrapy_第2张图片
centos系统下通过scrapyd部署python的scrapy_第3张图片

安装上传工具(scrapyd-client)

Scrapyd-client是一个专门用来发布scrapy爬虫的工具,安装后会出现在python的bin目录下。
安装命令:pip install scrapyd-client
centos系统下通过scrapyd部署python的scrapy_第4张图片

发布-(拷贝scrapyd-deploy到爬虫目录下)

centos系统下通过scrapyd部署python的scrapy_第5张图片
centos系统下通过scrapyd部署python的scrapy_第6张图片

发布-(修改爬虫的scapy.cfg文件)

centos系统下通过scrapyd部署python的scrapy_第7张图片
1、去掉url前的注释符号,这里url就是你的scrapyd服务器的网址;
2、deploy:127表示把爬虫发布到名为127的爬虫服务器上,deploy:后的名字可以自己定义;
3、default=i2Stocks .settings 建议用工程名字。

验证配置:执行如下命令python3 scrapyd-deploy -l
预期结果如下:
centos系统下通过scrapyd部署python的scrapy_第8张图片

发布-(上传scrapy到scrapyd)

上传命令:python3 '/soft/test/i2Stocks/scrapyd-deploy' 127 -p i2Stocks

centos系统下通过scrapyd部署python的scrapy_第9张图片

7、使用linux自带的调度工具执行刚刚发布的爬虫

确认当前的linux系统有这个工具curl
这里写图片描述
curl的介绍请参见:百度百科curl介绍。

发布job命令:curl http://localhost:6800/schedule.json -d project=i2Stocks -d spider=stocks

centos系统下通过scrapyd部署python的scrapy_第10张图片

我遇到的问题是spider与工程名称不一致,查看spider的名称,可以通过如下截图获取:
centos系统下通过scrapyd部署python的scrapy_第11张图片

查看job执行情况及运行日志方法如下:
centos系统下通过scrapyd部署python的scrapy_第12张图片

你可能感兴趣的:(Python,操作系统(linux等),服务器(nginx等),把python带回家)