搭建redis-scrapy分布式爬虫环境

ubuntu上作主机

A . 主机---管理指纹队列,数据队列,request队:redis, 建议不要爬数据。
     1台主机,用ubutnu系统
     上课演示的是这台电脑也爬取,不光要安装redis, 还要安装scrapy(先)和scrapy-redis(后)


    基本步奏: 
    1. 启动服务:redis-server
    2.  使用 redis 客户端查看是否启动:redis-cli
         必须安装的是redis: apt-get install redis-server

    3. 如果要把当前电脑当成Master端把bind 127.0.0.1注释掉,进入配置文件:
                    sudo vi /etc/redis/redis.conf
    4. windwo上面, 装并使用redis桌面管理软件,进行管理

步奏实现: ubuntu上装redis

1. cd,  在根目录下,装redis-server
sudo apt-get install redis-server

1.2   如果要把当前电脑当成Master端把bind 127.0.0.1注释掉,进入配置文件:
                    sudo vi /etc/redis/redis.conf


2. 启动 Redis 服务
redis-server

3.(ctrl +arl +t, 另一窗口) 启动redis 客户端
redis-cli

4.ping:pong
127.0.0.1 是本机 IP ,6379 是 redis 服务端口。现在我们输入 PING 命令------pong。

以上说明我们已经成功安装了redis。

5. 安装完成后,拷贝一份Redis安装目录下的redis.conf到任意目录,建议保存到:/etc/redis/redis.conf 

6. (ps:  ctrl +arl +t, 另一窗口下可) 查看版本及redis当前状态
查看版本服务端:
redis-server –version 和 redis-server -v 
查看客户端:
redis-cli –version 和 redis-cli -v 
查看redis当前状态
ps ajx|grep redis

window上装: RedisDesktopManager , 并连ubuntu上的redis, 管理redis数据

1, 点击RedisDesktopManager.exe 直接一步步安装就行,
2. 装好后, 链接上ubtuntu上的redis服务器

搭建redis-scrapy分布式爬虫环境_第1张图片

搭建redis-scrapy分布式爬虫环境_第2张图片

2. 从机(奴隶),专门做爬取数据,只要运行代码:安装scrapy和scrapy-redis
    从机2台
    window一台,和另外一台ubuntu系统

    各个电脑上安装scrapy, scrapy-redis:
        安装scrapy命令:pip3 install scrapy

        安装scrapy-redis命令:
        Python3安装命令:sudo pip3 install scrapy-redis

3. 测试从机是否可用链接上主机的redis

从机上爬取的数据要--->传输到主机的redis,判断request是否请求

链接到主机的命令:redis-cli -h 主机的ip
例如:redis-cli -h 192.168.11.73


四、scrapy-redis源码自带项目说明

运行爬虫:

from scrapy import cmdline
cmdline.execute("scrapy crawl mycrawler_redis".split())


让爬虫开始爬取网站命令:

主机上进入到redis客户端:redis-cli
执行任务的命令:lpush mycrawler:start_urls https://www.sina.com.cn/
             lpush         redis_key(唯一)          start_urls

你可能感兴趣的:(搭建redis-scrapy分布式爬虫环境)