1. 打开命令窗口,新建一个虚拟环境:
Mkvirtualenv --python=D:\python36\python.exe 虚拟环境名
2. 安装scrapy项目中所需要的包:
例如pip install scrapy
如果缺少win32 要进行pip install pywin32安装
3. 安装scrapyd服务:
pip install scrapyd
4. 输入scrapyd,启动服务, 在浏览器中输入127.0.0.1:6800测试是否连接成功
5. 如果连接成功,Ctrl+c退出服务.在非C盘目录下新建一个文件夹,自定义名称.进入该文件夹,shift+右键-->在此处打开命令窗口,先输入”workon 虚拟环境名”进入虚拟环境中,再输入scrapyd执行,此终端不能关闭.执行完成后会新建一个dbs空文件夹,用来存放爬虫项目的数据文件.
6. 进入虚拟环境,pip install scrapyd-client==1.1.0安装scrapyd-client模块,是专门打包scrapy爬虫项目到scrapyd服务中的,执行命令安装完成后,在虚拟环境的scripts中会出现scrapyd-deploy无后缀文件,这个scrapyd-deploy无后缀文件是启动文件,在Linux系统下可以运行,在windows下是不能运行....所以新建一个scrapyd-deploy.bat文件,右键选择编辑,输入以下配置,(注意:两个路径之间是空格,不能换行,一定要使用双引号。单引号的话会错误)
@echo off
"C:\Users\qianzhen\Envs\scrapySpider\Scripts\python.exe" "C:\Users\qianzhen\Envs\scrapySpider\Scripts\scrapyd-deploy" %1 %2 %3 %4 %5 %6 %7 %8 %9
7. 进入要执行的项目中,shift+右键打开命令窗口,使用workon进入虚拟环境,输入”scrapyd-deploy”进行测试,如果出现 Unknown target:default 则说明正确
8. 打开项目,进入scrapy.cfg文件,将url这行代码解掉注释,并且给设置你的部署名称
9. 再次执行scrapyd-deploy -l 启动服务,可以看到设置的名称
10. 开始打包前,执行一个命令:scrapy list,这个命令执行成功说明可以打包了,如果没执行成功说明还有工作没完成
11. 进行打包,还是在项目目录下的虚拟环境中,命令行输入:
scrapyd-deploy 部署名称 -p 项目名称
出现以下情况说明成功
12. 执行爬虫,在命令行中输入:
curl http://localhost:6800/schedule.json -d project=项目名称 -d spider=爬虫名称
----------------------------------------------------------------------------------------------------------------------------
停止爬虫
curl http://localhost:6800/cancel.json -d project=项目名称 -d job=运行ID
删除scrapy项目
注意:一般删除scrapy项目,需要先执行命令停止项目下在远行的爬虫
curl http://localhost:6800/delproject.json -d project=scrapy项目名称
查看有多少个scrapy项目在api中
curl http://localhost:6800/listprojects.json
查看指定的scrapy项目中有多少个爬虫
curl http://localhost:6800/listspiders.json?project=scrapy项目名称