Scrapy通过redis实现分布式抓取

scrapy-redis所实现的两种分布式:爬虫分布式以及item处理分布式。分别是由模块scheduler和模块pipelines实现。

一、Scrapy-redis各个组件介绍

(I) connection.py

负责根据setting中配置实例化redis连接。被dupefilter和scheduler调用,总之涉及到redis存取的都要使用到这个模块。

(II) dupefilter.py

负责执行requst的去重,实现的很有技巧性,使用redis的set数据结构。但是注意scheduler并不使用其中用于在这个模块中实现的dupefilter键做request的调度,而是使用queue.py模块中实现的queue。

当request不重复时,将其存入到queue中,调度时将其弹出。

(III)queue.py

其作用如II所述,但是这里实现了三种方式的queue:

FIFO的SpiderQueue,SpiderPriorityQueue,以及LIFI的SpiderStack。默认使用的是第二中,这也就是出现之前文章中所分析情况的原因(链接)。

(IV)pipelines.py

这是是用来实现分布式处理的作用。它将Item存储在redis中以实现分布式处理。

另外可以发现,同样是编写pipelines,在这里的编码实现不同于文章(链接:)中所分析的情况,由于在这里需要读取配置,所以就用到了from_crawler()函数。

(V)scheduler.py

此扩展是对scrapy中自带的scheduler的替代(在settings的SCHEDULER变量中指出),正是利用此扩展实现crawler的分布式调度。其利用的数据结构来自于queue中实现的数据结构。

scrapy-redis所实现的两种分布式:爬虫分布式以及item处理分布式就是由模块scheduler和模块pipelines实现。上述其它模块作为为二者辅助的功能模块。

(VI)spider.py

设计的这个spider从redis中读取要爬的url,然后执行爬取,若爬取过程中返回更多的url,那么继续进行直至所有的request完成。之后继续从redis中读取url,循环这个过程。

二、组件之间的关系

Scrapy通过redis实现分布式抓取_第1张图片

三、scrapy-redis实例分析

(1)      spiders/ ebay_redis.py

classEbayCrawler(RedisMixin,CrawlSpider):

    """Spiderthat reads urls from redis queue (mycrawler:start_urls)."""

    name = 'ebay_redis'

    redis_key = ' ebay_redis:start_urls'

    rules = (

        # follow all links

#         Rule(SgmlLinkExtractor(),callback='parse_page', follow=True),

       Rule(sle(allow=('[^\s]+/itm/', )), callback='parse_item'),

    )

   

#该方法是最关键的方法,该方法名以下划线开头,建立了和redis的关系   

def _set_crawler(self, crawler):

       CrawlSpider._set_crawler(self, crawler)

       RedisMixin.setup_redis(self)

 

    #   解析sku页面

    defparse_item(self,response):

        sel =Selector(response)

        base_url =get_base_url(response)

        item = EbayphoneItem()

        print base_url

        item['baseurl'] =[base_url]

        item['goodsname'] =sel.xpath("//h1[@id='itemTitle']/text()").extract()

        return item

该类继承了RedisMixin(scrapy_redis/spiders.py中的一个类)和CrawlSpider,加载配置文件的各项,建立和redis的关联,同时进行抓取后的解析。关键方法为_set_crawler(self, crawler),关键属性是redis_key,该key如果没有初始化则默认为spider.name:start_urls

 

 

_set_crawler()方法是如何被调用的:

 

scrapy/crawl.py/Crawler: crawl() ->

scrapy/crawl.py/Crawler:_create_spider () ->

CrawlSpiderfrom_crawler() –>

scrapy/spiders/Spider: from_crawler() ->

ebay_redis.py :_set_crawler()

(2)      setting.py

SPIDER_MODULES= ['example.spiders']

NEWSPIDER_MODULE= 'example.spiders'

ITEM_PIPELINES = {

'example.pipelines.ExamplePipeline':300,

 

#通过配置下面该项RedisPipeline'会将item写入key为

#spider.name:items的redis的list中,供后面的分布式处理item

'scrapy_redis.pipelines.RedisPipeline':400,

}

SCHEDULER= "scrapy_redis.scheduler.Scheduler"

#不清理redisqueues, 允许暂停或重启crawls

SCHEDULER_PERSIST= True

SCHEDULER_QUEUE_CLASS= 'scrapy_redis.queue.SpiderPriorityQueue'

#该项仅对queueclass is SpiderQueue or SpiderStack生效,阻止spider被关闭的最大空闲时间

SCHEDULER_IDLE_BEFORE_CLOSE= 10

#连接redis使用

REDIS_HOST = '123.56.184.53'

REDIS_PORT= 6379

(3)      process_items.py:

defmain():

    pool =redis.ConnectionPool(host='123.56.184.53', port=6379, db=0)

    r = redis.Redis(connection_pool=pool)

    while True:

        # process queue as FIFO, change `blpop`to `brpop` to process as LIFO

        source, data =r.blpop(["ebay_redis:items"])

        item = json.loads(data)

        try:

            print u"Processing: %(name)s<%(link)s>" % item

        except KeyError:

            print u"Error procesing:%r" % item

 

if__name__ == '__main__':

main()

该模块是从redis对应的list中取出item,进行处理,可以运行多个进程分布式处理items

(4)执行过程如下:

首先在redis服务器端打开redis服务:

./redis-server

 

其次执行

./redis-cli lpush ebaycrawler:start_urls http://www.ebay.com/sch/Cell-Phones-Smartphones-/9355/i.html

 

然后运行爬虫:

    scrapy runspiderebay_redis.py

可以执行多个爬虫,同时对ebay_redis:start_urls中的url进行分布式爬取,爬取后的结果都存入了ebay_redis:items的list中,供后续再次处理

 

最后可以查看items队列中的内容

./redis-cli llen ebay_redis:items 可以看到该items中总的个数


你可能感兴趣的:(python,数据挖掘)