Scrapy爬虫教程五 爬虫部署

Scrapy爬虫教程五 爬虫部署_第1张图片

Scrapy爬虫教程一 Windows下安装Scrapy的方式和问题总结

Scrapy爬虫教程二 浅析最烦人的反爬虫手段

Scrapy爬虫教程三 详细的Python Scrapy模拟登录知乎

Scrapy爬虫教程四 Scrapy+Selenium有浏览器界面模拟登录知乎

Scrapy爬虫教程五 爬虫部署

现在使用Scrapy进行爬取数据已经轻车熟路了,那这篇文章中就讲述了一下将爬虫部署到生产环境中。scrapy官方提供了爬虫管理工具scrapyd来方便的部署爬虫。

操作环境:

    Python 3.6.3  

    pip 9.0.1  

    curl 7.57.0

一.scrapyd

1.1使用scrapyd的好处?

    最大的好处就是方便使用,我们可以使用它来方便地运用 JSON API来部署爬虫、控制爬虫以及查看运行日志。

1.2.scrapyd工作原理

    当在一个服务器上安装并运行scrapyd服务的时候,scrapyd会以守护进程的形式来监听爬虫的运行和请求,然后启动进程来执行爬虫程序。

1.3.scrapyd的使用

1.3.1 scrapyd安装

pip install scrapyd

1.3.2 scrapyd启动

在命令行中敲入以下命令

scrapyd

启动之后的是这样的:


Scrapy爬虫教程五 爬虫部署_第2张图片

scrapyd 也提供了 web 的接口。方便我们查看和管理爬虫程序。默认情况下 scrapyd 监听 6800 端口,运行 scrapyd 后。在本机上使用浏览器访问http://localhost:6800/地址即可查看到当前可以运行的项目。


Scrapy爬虫教程五 爬虫部署_第3张图片

二.项目部署

    使用scrapyd-client提供的scrapyd-deploy工具进行部署

2.1 原理

    scrapyd 是运行在服务器端,而 scrapyd-client 是运行在客户端。客户端使用 scrapyd-client 通过调用 scrapyd 的 json 接口来部署爬虫项目。

2.2 scrapyd-client安装

    在命令行中敲入以下命令

pip install scrapyd-client

2.3配置项目的服务器信息

    修改工程目录下的scrapy.cfg文件

    如果你的服务器上有配置HTTP basic authentication验证的话,那么还需要配置用户名和密      码用来登录服务器

# -*- coding: utf-8 -*-

# Automatically created by: scrapy startproject

#

# For more information about the [deploy] section see:

# https://scrapyd.readthedocs.org/en/latest/deploy.html

[settings]default = speechspider.settings

[deploy:server]  #为服务器指定的一个名字 这里我指定为server

url = http://localhost:6800/   #部署项目的服务器地址,现在把项目部署到本地,如果部署到其他机器上就需要更改ip

project = speechspider     # speechspider为工程名称

username = *******

password = ******* 

2.4部署爬虫程序

    在爬虫根目录下运行以下命令:

scrapyd-deploy -p

    target为上一步在配置文件中配置的服务器名称,project为项目名称,拿我这个爬虫程序部署为例,执行的命令如下:

scrapyd-deploy server -p speechspider

    部署操作会打包你的当前项目,如果当前项目下有setup.py文件,就会使用它当中的配置,没有就会自动创建一个。(如果后期项目需要打包的话,可以根据自己的需要修改里面的信息,也可以暂时不管它). 从返回的结果里面,我们可以看到部署的状态,项目名称,版本号和爬虫个数,以及当前的主机名称.

    运行结果如下:


    使用以下命令查看部署结果:

scrapyd-deploy -L 服务器名称

$ scrapyd-deploy -L server

speechspider

default

    刷新http://localhost:6800/页面, 也可以看到Available projects:speechspider, default的字样。

三.使用API管理爬虫

scrapyd 的 web 界面比较简单,主要用于监控,所有的调度工作全部依靠接口实现。官方推荐使用 curl 来管理爬虫。

3.1 安装curl

    windows 用户可以到该网站https://curl.haxx.se/download.html下载 curl 安装包进行安装。

    ubuntu/Mac 用户直接使用命令行安装即可。

3.2 开启爬虫schedule

    在项目根目录下运行以下命令来开启爬虫:

3.3 取消爬虫

3.4 列出项目

3.5 列出爬虫、版本、job 信息

3.6 删除爬虫项目

    好了,爬虫程序的部署和使用API管理就介绍到这里。

你可能感兴趣的:(Scrapy爬虫教程五 爬虫部署)