Redis + Scrpay 分布式爬虫部署

一、Redis安装

1.1在Liunx环境下安装Redis

以ubuntu为例:
1.安装:sudo apt-get install redis-server
2.卸载:sudo apt-get purge --auto-remove redis-server
3.启动:redis安装完成后,默认会自动启动,可以通过ps aux|grep redis查看状态
手动启动:sudo service redis-server start
4.停止:sudo service redis-server stop

1.2在Windows环境下安装Redis

以win7为例:
1.下载与安装:redis官方是不支持windows操作系统的。但是微软的开源部门将redis移植到了windows上。因此下载地址不是在redis官网上。而是在github上:https://github.com/MicrosoftArchive/redis



选择合适系统的版本下载,打开文件安装完成即可
2.运行:进入到redis安装所在的路径然后执行redis-server.exe redis.windows.conf就可以运行了。

3.连接:redis和mysql以及mongo是一样的,都提供了一个客户端进行连接。输入命令redis-cli(前提是redis安装路径已经加入到环境变量中了)就可以连接到redis服务器了。
连接成功

二、虚拟机(其他机器)访问本机Redis服务器

想要让其他机器访问本机的redis服务器。那么要修改redis.windows-service.conf的配置文件,将bind改成bind [自己的ip地址或者0.0.0.0],其他机器才能访问。
注:bind绑定是本机网卡的ip地址,如果有多块网卡,可以绑定多个ip地址,绑定为0.0.0.0 意味着其他机器可以通过本机所有ip地址进行访问。
我的本机ip只有一个,所以0.0.0.0就是只包括了下面这一个ip地址

本机redis服务器地址

虚拟机(其他机器)连接时执行redis-cli -h 服务器的ip地址 -p 6379
虚拟机连接成功

三、在Linux上安装Scrapy

2.1在windows上安装Scrapy(略)

本文默认项目Scrapy项目已经在windows上开发完成

2.2在ubuntu上安装Scrapy之前,需要先安装以下依赖

sudo apt-get install python3-dev build-essential python3-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
cd到项目目录下,pip freeze > requirements.txt生成项目开发环境所需要的包,

requirements.txt

将requirements.txt发送给服务器
先进入一个文件夹“文档”,在这个文件夹下使用rz命令来读取本文件
读取requirements.text

读取成功

pip install -r requirements.txt 安装开发环境所需要的包

四、改写Scrapy-Redis分布式爬虫:

要将一个Scrapy项目变成一个Scrapy-redis项目只需修改以下三点就可以了:

  1. 将爬虫的类从scrapy.Spider变成scrapy_redis.spiders.RedisSpider;或者是从scrapy.CrawlSpider变成scrapy_redis.spiders.RedisCrawlSpider
  2. 将爬虫中的start_urls删掉。增加一个redis_key="xxx"。这个redis_key是为了以后在redis中控制爬虫启动的。爬虫的第一个url,就是在redis中通过这个发送出去的。
  3. 在配置文件中增加如下配置:
    # Scrapy-Redis相关配置
    # 确保request存储到redis中
    SCHEDULER = "scrapy_redis.scheduler.Scheduler"
    # 确保所有爬虫共享相同的去重指纹
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
    # 设置redis为item pipeline
    ITEM_PIPELINES = {
        'scrapy_redis.pipelines.RedisPipeline': 300
    }
    # 在redis中保持scrapy-redis用到的队列,不会清理redis中的队列,从而可以实现暂停和恢复的功能。
    SCHEDULER_PERSIST = True
    # 设置连接redis信息
    REDIS_HOST = '127.0.0.1'
    REDIS_PORT = 6379

五、运行爬虫:

1.  在爬虫服务器上。进入爬虫文件所在的路径,然后输入命令:`scrapy runspider [爬虫名字]`。
2.  在`Redis`服务器上,推入一个starturl链接:`redis-cli> lpush [redis_key] start_url`开始爬取。

你可能感兴趣的:(Redis + Scrpay 分布式爬虫部署)