一、Redis安装

1.1在Liunx环境下安装Redis

以ubuntu为例：
1.安装：sudo apt-get install redis-server
2.卸载：sudo apt-get purge --auto-remove redis-server
3.启动：redis安装完成后，默认会自动启动，可以通过ps aux|grep redis查看状态
手动启动：sudo service redis-server start
4.停止：sudo service redis-server stop

1.2在Windows环境下安装Redis

以win7为例：
1.下载与安装：redis官方是不支持windows操作系统的。但是微软的开源部门将redis移植到了windows上。因此下载地址不是在redis官网上。而是在github上：https://github.com/MicrosoftArchive/redis

选择合适系统的版本下载，打开文件安装完成即可
2.运行：进入到redis安装所在的路径然后执行redis-server.exe redis.windows.conf就可以运行了。

3.连接：redis和mysql以及mongo是一样的，都提供了一个客户端进行连接。输入命令redis-cli（前提是redis安装路径已经加入到环境变量中了）就可以连接到redis服务器了。

连接成功

二、虚拟机（其他机器）访问本机Redis服务器

想要让其他机器访问本机的redis服务器。那么要修改redis.windows-service.conf的配置文件，将bind改成bind [自己的ip地址或者0.0.0.0]，其他机器才能访问。
注：bind绑定是本机网卡的ip地址，如果有多块网卡，可以绑定多个ip地址，绑定为0.0.0.0 意味着其他机器可以通过本机所有ip地址进行访问。
我的本机ip只有一个，所以0.0.0.0就是只包括了下面这一个ip地址

本机redis服务器地址

虚拟机（其他机器）连接时执行redis-cli -h 服务器的ip地址 -p 6379

虚拟机连接成功

三、在Linux上安装Scrapy

2.1在windows上安装Scrapy（略）

本文默认项目Scrapy项目已经在windows上开发完成

2.2在ubuntu上安装Scrapy之前，需要先安装以下依赖

sudo apt-get install python3-dev build-essential python3-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
cd到项目目录下，pip freeze > requirements.txt生成项目开发环境所需要的包，

requirements.txt

将requirements.txt发送给服务器
先进入一个文件夹“文档”，在这个文件夹下使用rz命令来读取本文件

读取requirements.text

读取成功

pip install -r requirements.txt 安装开发环境所需要的包

四、改写Scrapy-Redis分布式爬虫：

要将一个Scrapy项目变成一个Scrapy-redis项目只需修改以下三点就可以了：

将爬虫的类从scrapy.Spider变成scrapy_redis.spiders.RedisSpider；或者是从scrapy.CrawlSpider变成scrapy_redis.spiders.RedisCrawlSpider。
将爬虫中的start_urls删掉。增加一个redis_key="xxx"。这个redis_key是为了以后在redis中控制爬虫启动的。爬虫的第一个url，就是在redis中通过这个发送出去的。
在配置文件中增加如下配置：

    # Scrapy-Redis相关配置
    # 确保request存储到redis中
    SCHEDULER = "scrapy_redis.scheduler.Scheduler"
    # 确保所有爬虫共享相同的去重指纹
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
    # 设置redis为item pipeline
    ITEM_PIPELINES = {
        'scrapy_redis.pipelines.RedisPipeline': 300
    }
    # 在redis中保持scrapy-redis用到的队列，不会清理redis中的队列，从而可以实现暂停和恢复的功能。
    SCHEDULER_PERSIST = True
    # 设置连接redis信息
    REDIS_HOST = '127.0.0.1'
    REDIS_PORT = 6379

五、运行爬虫：

1.  在爬虫服务器上。进入爬虫文件所在的路径，然后输入命令：`scrapy runspider [爬虫名字]`。
2.  在`Redis`服务器上，推入一个starturl链接：`redis-cli> lpush [redis_key] start_url`开始爬取。

Redis + Scrpay 分布式爬虫部署