python3.6使用scrapyd与gerapy管理爬虫

正常的管控scrapy框架的爬虫是很简单的,当爬虫很少的时候是很好处理的,但是当爬虫量级达到上百个甚至更多的时候,一个一个的处理就很麻烦了,所以才有了scrapyd和gerapy。
环境:win10,python3.6, scrapy-1.7.4

1. 安装scrapyd与gerapy

python3 -m pip install scrapyd
python3 -m pip install scrapyd-client
python3 -m pip install gerapy

安装完成之后,在python36的Script目录下出现(如下图)

python3.6使用scrapyd与gerapy管理爬虫_第1张图片
image.png

2. 运行scrapyd

在命令提示符[cmd]直接输入scrapyd,如果和python2有冲突,可直接切换到到python3的Scripts目录中运行scrapyd.exe


python3.6使用scrapyd与gerapy管理爬虫_第2张图片
image.png

然后浏览器访问 http://127.0.0.1:6800即可


python3.6使用scrapyd与gerapy管理爬虫_第3张图片
image.png

3. 管理scrapy

    1. 在scrapy项目的根目录找到scrapy.cfg(我用我的Appcrawler为例)


      python3.6使用scrapyd与gerapy管理爬虫_第4张图片
      image.png
    1. 修改scrapy.cfg


      python3.6使用scrapyd与gerapy管理爬虫_第5张图片
      image.png

      修改完成之后开始管理scrapy爬虫

    1. scrapy爬虫管理
      第一步:cmd进入项目的根目录
      检测爬虫个数


      python3.6使用scrapyd与gerapy管理爬虫_第6张图片
      image.png

      上传项目
      stauts为上传状态:ok or error
      project为项目名称
      spiders为爬虫个数


      python3.6使用scrapyd与gerapy管理爬虫_第7张图片
      image.png

      手动启动爬虫
      image.png

      正常启动爬虫之后在web界面中
      python3.6使用scrapyd与gerapy管理爬虫_第8张图片
      image.png

      说明爬虫启动正常。如果没有说明有错误,查看scrapyd按报的错误修改即可。

4. gerapy管理爬虫

  • 第一步
    启动gerapy
    在命令提示符中输入gerapy runsever即可
    在web端输入http://127.0.0.1:8000进入


    python3.6使用scrapyd与gerapy管理爬虫_第9张图片
    image.png
  • 第二步连接scrapyd


    python3.6使用scrapyd与gerapy管理爬虫_第10张图片
    image.png

第一:点击client--->create
第二:name随便填写,IP:为scrapyd的IP为127.0.0.1,PORT:端口为scrapyd的端口为6800
第三:点击创建即可。会弹出save successfully。

  • 第三步 管理爬虫
    点击client即可看到管理界面


    python3.6使用scrapyd与gerapy管理爬虫_第11张图片
    image.png

    点击调度,即可随意开启爬虫


    python3.6使用scrapyd与gerapy管理爬虫_第12张图片
    image.png

    以上就是简单的配置。
    scapyd也可与spiderkeeper对接
    spiderkeeper有定时启动爬虫,有数据库功能比gerapy更为强大,有空再写scrapyd与spiderkeeper和在linux部署管理平台。

    帮助到你的留个小心心。

你可能感兴趣的:(python3.6使用scrapyd与gerapy管理爬虫)