Gerapy 分布式爬虫管理部署使用

Gerapy 使用详解

介绍:

Gerapy 是一款分布式爬虫管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 开发,Gerapy 可以帮助我们:

  • 更方便地控制爬虫运行

  • 更直观地查看爬虫状态

  • 更实时地查看爬取结果

  • 更简单地实现项目部署

  • 更统一地实现主机管理

  • 提供在线编辑代码功能

Greapy 安装和使用
  • step1: gerapy下载

pip3 install gerapy

查看是否安装成功

gerapy

出现如下结果图说明安装成功

Gerapy 分布式爬虫管理部署使用_第1张图片

  • step2: 初始化gerapy
    进入到指定目录下(例如桌面)执行如下命令

gerapy init

执行完毕之后,便会在桌面下生成一个名字为 gerapy 的文件夹,接着进入该文件夹,可以看到有一个 projects 文件夹

  • step3: 初始化数据库
    进入到gerapy文件夹下

cd gerapy

执行(会在gerapy目录下生产一个sqlite数据库,同时创建数据表,数据库中会保存各个主机配置信息、部署版本等)

gerapy migrate

  • step4: 运行gerapy服务

gerapy runserver

  • step5:访问gerapy管理界面
    在浏览器中输入如下网址

http://127.0.0.1:8000

Gerapy 分布式爬虫管理部署使用_第2张图片

  • step6:在主机管理中添加个台主机的Scrapyd运行地址和端口,并设置名称,然后个台主机则会出现在主机列表中,Gerapy会监控个台主机的运行状态。

Gerapy 分布式爬虫管理部署使用_第3张图片
Gerapy 分布式爬虫管理部署使用_第4张图片

之后就可以实现调度了

处理可以管理控制已经部署好的项目外,Gerapy还支持打包和部署项目

  • step1:进入到gerapy文件夹下,找到projects目录

cd gerapy

Gerapy 分布式爬虫管理部署使用_第5张图片

  • step2:在此页面进行打包和部署项目到指定服务器

Gerapy 分布式爬虫管理部署使用_第6张图片

部署完成后就可以运行和管理爬虫项目了

本章节Gerapy 分布式爬虫管理部署使用就为大家介绍到这里

你可能感兴趣的:(爬虫)