scrapy爬虫项目的部署以及可视化管理

一、介绍

在这里使用的是scrapyd部署,scrapyd-deploy进行打包,spiderkeeper进行项目可视化管理。spiderkeeper是开源的spider可视化管理工具,它可以很方便的实现爬虫的启动,暂停,定时等,同时还具有可以查看分布式下所有爬虫的日志、爬虫执行情况等功能。

二、使用

安装相关环境

python3.7.3
pip install scrapy
pip install scrapyd
pip install scrapyd-client
pip install scrapy-redis
pip install SpiderKeeper

启动scrapyd

终端输入:scrapyd

浏览器输入:localhost:6800

部署到本地的scrapyd上
使用scrapy-deploy将项目部署到你本地的服务器上面,你本地的scrapyd获得相应的 .egg文件.

scrapyd-deploy 部署名 -p 项目名称

启动spiderkeeper

通过连接多台scrapyd服务器进行启动.,启动一个spiderkeeper能够进行部署多台服务器的spider文件

sudo spiderkeeper --server=http://localhost:6800 --server=http://123.124.125.126:6800 

终端输入:SpiderKeeper

浏览器输入:localhost:5000

注意:在windows平台下需要输入用户名和密码,用户名和密码默认都是admin。

打包以及部署

测试scrapyd-deploy可用:

scrapyd-deploy -h

使用scrapyd打包项目生成.egg文件,以便后面传到spiderkeeper上面

scrapyd-deploy --build-egg output.egg

部署到spiderkeeper上

输入:localhost:5000显示的页面上点击左侧栏中Deploy按钮进行创建项目

选择新生成的.egg文件即可完成。

 

你可能感兴趣的:(爬虫)