分布式部署pyspider

0. 引言

pyspider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。

最近有项目需要爬虫支撑,需要抓取的站点繁多,但数据量较小,决定使用pyspider来做数据抓取。考虑到单机性能和可用性问题,最后使用Docker分布式部署了pyspider,到目前为止的半年时间里运行良好。本文主要介绍一下我搭建流程,以及遇到的问题以及解决办法。

1. 部署说明

pyspider的框架设计在官方文档中已经介绍的很清楚了,"以去重调度,队列,抓取,异常处理,监控等功能作为框架,提供给抓取脚本,并保证灵活性。最后加上webUI的编辑调试环境,以及web任务监控,即成为了这套框架。

pyspider架构设计图.png

pyspider中由scheduler负责任务调度,fetcherprocessor负责数据抓取和解析输出。除了scheduler是单点部署,fetcherprocessorwebui都可以多实例分布式部署。因此我们可以将scheduler部署在一台机器上,负责所有爬虫任务的调度,fetcherprocessor部署到其他机器进行数据抓取和解析输出。

2. 构建pyspider镜像

事实上作者在DockerHub上提供了基于python2的镜像,因为有项目需要我就重新构建了基于python3的镜像,并引入一些自己的类库。DockerFile如下:


FROM python:3.6

MAINTAINER LieFeng  "[email protected]"

# copy自己的一些代码到环境中

#$COPY  . /spider

#WORKDIR /spider

# install phantomjs

RUN mkdir -p /opt/phantomjs \

    && cd /opt/phantomjs \

    && wget -O phantomjs.tar.bz2 https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2 \

    && tar xavf phantomjs.tar.bz2 --strip-components 1 \

    && ln -s /opt/phantomjs/bin/phantomjs /usr/local/bin/phantomjs \

    && rm phantomjs.tar.bz2

RUN ["pip","install","wsgidav==2.4.1"]

RUN ["pip","install","pyspider"]

RUN ["pip","install","sqlalchemy"]

RUN ["pip","install","redis"]

RUN ["pip","install","psycopg2"]

VOLUME ["/opt/pyspider"]

ENTRYPOINT ["pyspider"]

EXPOSE 5000 23333 24444 25555

build镜像,我把镜像命名为buqx/pyspider,后面的部署都是基于这个镜像来做的。

3. 部署主节点

在部署说明里我们可以将scheduler部署在一台机器上,负责所有爬虫任务的调度。这台机器我称为主节点,除了部署scheduler之外,我还将pyspider的project、task、result数据库和消息队列部署在这台机器上。

3.1 部署数据库和消息队列

pyspider有三个数据库(projectdb\taskdb\resultdb)和一个消息队列,数据库我使用了PostgreSQL,消息队列使用Redis。我们使用docker来部署它们。

  • 为了使用统一的网络接口,我们首先使用docker 创建pyspider network。

    
    $ docker network create --driver bridge pyspider
    
    
  • 使用docker部署PostgreSQL,这里需要注意的是端口绑定的问题,postgres默认端口是5432,所以不管绑定到外部那个端口,docker容器内一定要使用5432端口,除非你手动修改了它

    
    $ docker run --network=pyspider  --name postgres  \
    
      -v ~/data/postgres/:/var/lib/postgresql/data  \
    
      -d -p $LOCAL_IP:5432:5432 -e POSTGRES_PASSWORD="" postgres
    
    
  • 进入postgres容器,新建数据库用户spider,新建数据库:projectdb、taskdb和resultdb

  • 使用docker部署Redis

    
    $ docker run --network=pyspider --name redis -d -p 6379:6379 redis
    
    

3.2 部署scheduler

docker命令如下,其中buqx/pyspider 是我镜像名称,[email protected]是数据库用户名和机器的内网IP


$ docker run --network=pyspider --name scheduler -d -p 23333:23333 --restart=always buqx/pyspider  --taskdb "sqlalchemy+postgresql+taskdb://[email protected]:5431/taskdb" --resultdb "sqlalchemy+postgresql+resultdb://[email protected]:5431/resultdb" --projectdb "sqlalchemy+postgresql+projectdb://[email protected]:5431/projectdb" --message-queue "redis://192.168.34.203:6379/1"  scheduler --inqueue-limit 5000 --delete-time 43200

3.3 验证

完成上面的操作后,可以在主节点上看到启动了9个容器,如下图。


image-主节点启动容器示例图.png

4. 子节点部署

我们通过docker-compose来编排fetcherwebuiprocessor容器,docker-compose.yml文件如下:


version: "2"

services:

  phantomjs:

    image: 'buqx/pyspider:latest'

    command: phantomjs

    cpu_shares: 256

    environment:

      - 'EXCLUDE_PORTS=5000,23333,24444'

    expose:

      - '25555'

    mem_limit: 256m

    restart: always

  phantomjs-lb:

    image: 'dockercloud/haproxy:latest'

    links:

      - phantomjs

    volumes:

      - ~/docker/volumes/docker.sock:/var/run/docker.sock

    restart: always

  fetcher:

    image: 'buqx/pyspider:latest'

    command: '--message-queue "redis://192.168.34.203:6379/1" --phantomjs-proxy "phantomjs:80" fetcher --xmlrpc'

    cpu_shares: 256

    environment:

      - 'EXCLUDE_PORTS=5000,25555,23333'

    links:

      - 'phantomjs-lb:phantomjs'

    mem_limit: 256m

    restart: always

  fetcher-lb:

    image: 'dockercloud/haproxy:latest'

    links:

      - fetcher

    volumes:

      - ~/docker/volumes/docker.sock:/var/run/docker.sock

    restart: always

  processor:

    image: 'buqx/pyspider:latest'

    command: '--projectdb "sqlalchemy+postgresql+projectdb://spider:[email protected]:5431/projectdb" --message-queue "redis://192.168.34.203:6379/1" processor'

    cpu_shares: 256

    mem_limit: 256m

    restart: always

  result-worker:

    image: 'buqx/pyspider:latest'

    command: '--taskdb "sqlalchemy+postgresql+taskdb://spider:[email protected]:5431/taskdb"  --projectdb "sqlalchemy+postgresql+projectdb://spider:[email protected]:5431/projectdb" --resultdb "sqlalchemy+postgresql+resultdb://spider:[email protected]:5431/resultdb" --message-queue "redis://192.168.34.203:6379/1" result-worker'

    cpu_shares: 256

    mem_limit: 256m

    restart: always

  webui:

    image: 'buqx/pyspider:latest'

    command: '--phantomjs-proxy "phantomjs:25555" --taskdb "sqlalchemy+postgresql+taskdb://spider:[email protected]:5431/taskdb"  --projectdb "sqlalchemy+postgresql+projectdb://spider:[email protected]:5431/projectdb" --resultdb "sqlalchemy+postgresql+resultdb://spider:[email protected]:5431/resultdb" --message-queue "redis://192.168.34.203:6379/1" webui  --scheduler-rpc "http://192.168.34.203:23333/" '

    cpu_shares: 256

    environment:

      - 'EXCLUDE_PORTS=24444,25555,23333'

    ports:

      - '5288:5000'

    links:

      - 'fetcher-lb:fetcher'

    mem_limit: 256m

    restart: always

networks:

  default:

    external:

      name: pyspider

使用docker-compose up启动所有容器,通过docker container ls查看启动的容器,可以看到下图中的九容器正在运行(子节点机器上装了portainer,图是从portainer截取的),访问http://子节点IP:5288/ 进入pyspider控制台。

image-子节点启动容器示例.png

5. 问题罗列(会不断补充)

  • self.crawl 添加 fetch_type=‘js’ 参数,出现

    
    Traceback (most recent call last):
    
          File "/usr/local/lib/python2.7/dist-packages/pyspider/libs/base_handler.py", line 188, in run_task
    
            result = self._run_task(task, response)
    
          File "/usr/local/lib/python2.7/dist-packages/pyspider/libs/base_handler.py", line 167, in _run_task
    
            response.raise_for_status()
    
          File "/usr/local/lib/python2.7/dist-packages/pyspider/libs/response.py", line 190, in raise_for_status
    
            raise http_error
    
        HTTPError: 501 Server Error
    
    

    解决:参考https://github.com/binux/pyspider/issues/432解决,修改compose file 在webui 的command 增加“--phantomjs-proxy "phantomjs:25555 ”

    
    webui:
    
        image: 'buqx/pyspider:latest'
    
        command: '--phantomjs-proxy "phantomjs:25555" --taskdb "sqlalchemy+postgresql+taskdb://spider:[email protected]:5431/taskdb"  --projectdb "sqlalchemy+postgresql+projectdb://spider:[email protected]:5431/projectdb" --resultdb "sqlalchemy+postgresql+resultdb://spider:[email protected]:5431/resultdb" --message-queue "redis://192.168.34.203:6379/1" webui  --scheduler-rpc "http://192.168.34.203:23333/" '
    
        cpu_shares: 256
    
        environment:
    
          - 'EXCLUDE_PORTS=24444,25555,23333'
    
        ports:
    
          - '5288:5000'
    
        links:
    
          - 'fetcher-lb:fetcher'
    
        mem_limit: 256m
    
        restart: always
    
    

你可能感兴趣的:(分布式部署pyspider)