本文地址:https://www.jianshu.com/p/3de01adfff23
简介
scrapy-redis
是一个基于Redis
的Scrapy组件。其主要有以下特性:
-
分布式抓取数据
你可以让多个爬虫实例使用同一个
Redis
队列,非常适合广泛的多域抓取。 -
分布式处理数据
抓取到的
Items
会被推送到redis
队列中,这意味着你可以通过共享的items
队列,按照需求自行决定后期处理数据的数量。 -
即插即用
提供的
Scheduler + Duplication
,Item Pipeline
,Base Spiders
组件都是即插即用,非常方便。
其构建分布式的方案采用的是master
-slave
的方式,大概的原理是所有在slave
上生成的url,都会被远程发送到master
,然后在master
上使用Redis
数据库来存储需要抓取的url
队列。slave
要获取下一个抓取的url,也是远程从master
获得。
通过这种方式,就实现了所有Spider抓取的地址统一由master
调度,并保存到Redis
中的set
,这样实现了断点续爬功能。
并且scrapy-redis
会将所有抓取过的地址生成指纹并保存下来,由此可以避免url的重复抓取。
安装
scrapy-redis
是基于Redis
的,所以在使用之前需要先安装Redis
数据库。
如果配置分布式,那么需要把redis
的远程连接打开,以及配置好访问密码。
scrapy-redis
模块的安装比较简单,用pip
安装即可。
pip install scrapy-redis
Scrapy-redis用法
在安装scrapy-redis
完毕之后,我们只需要在Scrapy项目中添加一些配置选项就可以启用scrapy-redis
组件了。
# Enables scheduling storing requests queue in redis.
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# Ensure all spiders share same duplicates filter through redis.
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# Default requests serializer is pickle, but it can be changed to any module
# with loads and dumps functions. Note that pickle is not compatible between
# python versions.
# Caveat: In python 3.x, the serializer must return strings keys and support
# bytes as values. Because of this reason the json or msgpack module will not
# work by default. In python 2.x there is no such issue and you can use
# 'json' or 'msgpack' as serializers.
#SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"
# Don't cleanup redis queues, allows to pause/resume crawls.
#SCHEDULER_PERSIST = True
# Schedule requests using a priority queue. (default)
#SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'
# Alternative queues.
#SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.FifoQueue'
#SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.LifoQueue'
# Max idle time to prevent the spider from being closed when distributed crawling.
# This only works if queue class is SpiderQueue or SpiderStack,
# and may also block the same time when your spider start at the first time (because the queue is empty).
#SCHEDULER_IDLE_BEFORE_CLOSE = 10
# Store scraped item in redis for post-processing.
ITEM_PIPELINES = {
'scrapy_redis.pipelines.RedisPipeline': 300
}
# The item pipeline serializes and stores the items in this redis key.
#REDIS_ITEMS_KEY = '%(spider)s:items'
# The items serializer is by default ScrapyJSONEncoder. You can use any
# importable path to a callable object.
#REDIS_ITEMS_SERIALIZER = 'json.dumps'
# Specify the host and port to use when connecting to Redis (optional).
#REDIS_HOST = 'localhost'
#REDIS_PORT = 6379
# Specify the full Redis URL for connecting (optional).
# If set, this takes precedence over the REDIS_HOST and REDIS_PORT settings.
#REDIS_URL = 'redis://user:pass@hostname:9001'
# Custom redis client parameters (i.e.: socket timeout, etc.)
#REDIS_PARAMS = {}
# Use custom redis client class.
#REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'
# If True, it uses redis' ``SPOP`` operation. You have to use the ``SADD``
# command to add URLs to the redis queue. This could be useful if you
# want to avoid duplicates in your start urls list and the order of
# processing does not matter.
#REDIS_START_URLS_AS_SET = False
# Default start urls key for RedisSpider and RedisCrawlSpider.
#REDIS_START_URLS_KEY = '%(name)s:start_urls'
# Use other encoding than utf-8 for redis.
#REDIS_ENCODING = 'latin1'
以上列出来的配置语句,选择需要配置的部分,复制到Scrapy
项目的settings.py
文件中即可。
核心组件
如果要启用scrapy-redis
的话,那么有两个设置项必须配置:
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
这是scrapy-redis
的两个核心组件,实现了大部分的逻辑。
配置Redis连接
配置Redis
的方式有两种,一种是通过参数配置:
REDIS_HOST = 'localhost'
REDIS_PORT = 6379
REDIS_PASSWORD = 'foobared'
另一种是通过url
地址来进行配置:
REDIS_URL = 'redis://user:password@hostname:9001'
url
地址支持以下三种格式:
redis://[:password]@host:port/db
rediss://[:password]@host:port/db
unix://[:password]@/path/to/socket.sock?db=db
配置调度队列
还可以通过设置字段来配置队列的调度方式。调度方式总共有以下三种:
# 默认的调度方式,优先队列,使用redis中的有序集合
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'
# 先入先出队列
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.FifoQueue'
# 后入先出队列
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.LifoQueue'
配置的时候可以选择其中之一。
配置断点续爬
由于scrapy-redis
将去重的指纹和爬取队列存储在Redis
数据库中,所以可以实现断点续爬的功能。
首先我们需要开启一个持久化的配置,将此设置配置为True
后,那么Scrapy
在退出时将不会清空Redis
的队列。
SCHEDULER_PERSIST = True
保留下去重的指纹和爬取队列后,那么下一次开启抓取就会重新继续上次的爬取队列了。
配置Pipeline
scrapy-redis
中有一个功能是可以将各个分布式的slave
抓取到的item传输给master
,这样的话,所有抓取的数据都会保存到一个统一的master
中。
但是这项功能会较大的影响抓取的速度,所以在大规模抓取的时候一般都不会开启此选项。
ITEM_PIPELINES = {
'scrapy_redis.pipelines.RedisPipeline': 300
}
系列文章:
- Scrapy-1.强大与全面的Python爬虫框架
- Scrapy-2.Spiders
- Scrapy-3.Selector和Request
- Scrapy-4.Middleware
- Scrapy-5.Items
- Scrapy-6.Settings
- Scrapy-7.Scrapy-redis
- Scrapy-8.Scrapyd
- Scrapy-9.常见问题