scrapyd部署爬虫项目所需配置

    scrapyd部署爬虫项目

1,安装scrapy包      pip install scrapyd

在终端输入scrapyd  查看是否成功  所在端口为6800即为成功(建议不要将这个关掉,后面需要这个服务,关掉会连接不到主机)

scrapyd部署爬虫项目所需配置_第1张图片

 在浏览器上输入127.0.0.1::6800  查看

scrapyd部署爬虫项目所需配置_第2张图片

 点击jobs即为爬虫内容

scrapyd部署爬虫项目所需配置_第3张图片

 当有爬虫文件执行时,jobs会显示爬虫的动态

2,在1非c盘下创建一个文件夹例如spiderTest,进入该文件夹shitf加鼠标右键,打开命令行工具,输入scrapyd执行

执行完之后会发现里面多一个dbs文件夹,是用来存放爬虫项目的数据文件

3,安装scrapyd-client  推荐安装1.1.0版本,安装完之后,在Python文件夹(该文件夹的位置就是安装Python的位置)中会出现

scrapyd-deploy无后缀文件,此文件无法执行,需要新建一个scapyd-deploy.bat文件并在里面添加内容,如下

scrapyd部署爬虫项目所需配置_第4张图片

 

 scrapyd部署爬虫项目所需配置_第5张图片

 上面的路径为安装的Python路径 必须修改为自己的路径,其他不变

4,进入到你的爬虫项目中,进入带有scrapy.cfg文件的目录,打开命令行  输入scrapyd-deploy

出现如下效果即为正常

 5,修改scrapy.cfg文件内容

打开该文件,设置部署名称,并将url这行代码解注释

scrapyd部署爬虫项目所需配置_第6张图片

 ,5,执行scrapy-deploy - l    可以看到设置的名称,与上图对应

 

 6,在打包开始前  输入scrapyd list  执行结果为爬虫文件名   如果这个命令成功了  说明可以成工打包

注意执行该命令有可能出现错误,如果Python无法找到scrapy项目,需要在scrapy项目里的  settings配置文件里设置成Python可识别路径

# 将当前项目的一级目录TotalSpider目录添加到python可以识别目录中

BASE_DIR = os.path.dirname(os.path.abspath(os.path.dirname(__file__)))

sys.path.insert(0, os.path.join(BASE_DIR, TotalSpider(项目名称)”))

scrapyd部署爬虫项目所需配置_第7张图片

 

如果错误提示,什么远程计算机拒绝,说明你的scrapy项目有链接远程计算机,如链接数据库或者elasticsearch(搜索引擎)之类的,需要先将链接服务器启动

执行 scrapy list  命令返回了爬虫名称说明一切ok了,如下图

 7,到此为止我们可以开始打包scrapy项目到scrapyd

执行打包命令: scrapyd-deploy 部署名称 -p 项目名称

如:scrapyd-deploy wj(scrapy.cfg中设置的名字) -p TotalSpider(同理)

如下显示表示scrapy项目打包成功

 执行

curl http://localhost:6800/schedule.json -d project=项目名称 -d spider=爬虫名称

执行后,如果出现下图则表示成功

 此时  去网页查看状态127.0.0.1:6800

scrapyd部署爬虫项目所需配置_第8张图片

 框内为正在爬虫的代码,下面是已经结束的爬虫

 

以上即是scrapyd爬虫部署配置!

你可能感兴趣的:(学以致用)