scrapyd和gerapy部署分布式爬虫

关于gerapy框架知识可以通过了解一下崔庆才的博客来获取

gerapy基于scrapyd等模块。。功能非常实用。。可以简化分布式爬虫的步骤并且非常直观的表现出来!

1,前置配置

1,下载gerapy包   pip install gerapy

2,在非c盘新建文件夹  例如(spider_gerapy)

3,在该文件夹下打开命令窗口 输入gerapy_init 初始化(出现了gerapy文件夹)

4,进入gerapy文件  命令行输入gerapy_migrate 创建数据表

5,当前命令行输入gerapy_runserver启动服务

6,浏览器输入127.0.0.1:8000

scrapyd和gerapy部署分布式爬虫_第1张图片

 创建用户(开启scrapyd   因为gerapy是基于scrapyd的)

scrapyd和gerapy部署分布式爬虫_第2张图片

 结果

 注意:如果没有开启服务 则方框内将会报错,所以必须把scrapyd以及gerapy服务开启

2,项目管理

首先将一个已经完善的爬虫项目放入C:\Users\Administrator\Desktop\gerapy_spider\gerapy\projects中(根据自己创建的目录写)

scrapyd和gerapy部署分布式爬虫_第3张图片

 我们就会在项目管理中看到

 接下来部署爬虫项目  点击部署

scrapyd和gerapy部署分布式爬虫_第4张图片

 回到主机管理  点击调度

 此时我们发现爬虫项目已经可以通过点击运行按钮  开始执行爬虫了,是不是比输入命令快多了!!!!!

3,让其他ip与你互相连接,并且双方都可以调度双方的爬虫项目

1,双方关闭防火墙(保险)

2.,双方都开通scrapyd gerapy服务

3,双方在安装scrapyd目录下找到 下面文件将bind_adress 地址修改为0.0.0.0

scrapyd和gerapy部署分布式爬虫_第5张图片

 并且重启双服务

在主机管理中创建新用户  ip为你要连接的主机ip

结果如下

 如果对面部署好了爬虫项目  那么点击调度  就可以看见对面主机的爬虫项目  并可运行

4,scrapyd与gerapy分布式

1,主机开启redis,scrapyd,gerapy服务  从只需要开启后两个服务

2,将分布式代码放入projects中

3,主从连接成功之后(如上),将分布式爬虫项目一起部署到主从服务器中

4,中从运行爬虫文件   可以发现主从爬虫文件上面的代码都显示6024/6025  等待lpush网址

5,开起redis-cli -h ip(主机)

6,lpush ***(开始页的名字,爬虫文件(spider)中自己设置的):start_urls: ***********************(爬虫项目的网址)

以上步骤执行后可以在主机上看主从的分布式爬虫的进程,还可以选择或关闭主从的爬虫项目!!!

你可能感兴趣的:(学以致用)