scrapy爬取豆瓣读书的图书信息

usage

scrapy crawl dou

一、效果

scrapy爬取豆瓣读书的图书信息_第1张图片

二、源码下载地址

http://download.csdn.net/detail/wxq714586001/8826869

三、实现过程

done list:
    1、定义Item   
    2、开始爬取网页 
        a、定义类继承自CrawlSpider
        b、定义name/allowed_domains/start_urls/rules
        c、rules的定义,用正则表达式来提取网页,注意:默认follow在没有定义callback时是True,定义了callback则为False
        
        出现的问题:
            a、变量的拼写错误(start_urls)
            b、*.py不能和工程名相同,否则出现问题no module named xxx(items)
            c、不能自定义parse函数,会覆盖原始的实现版本,否则爬虫不能跟进。
            
    3、解析网页 
        用re()提取xpath得到的数据
        
    4、存取信息
        要修改的地方有两个:
            a、在pipelines.py中自定义存储方式。
            b、在settings.py中添加ITEM_PIPELINES={'Doubanbook.pipelines.DoubanbookPipeline':300}
    
    5、爬取一段时间后背禁止 done


todo:

a、出现了404错误。

b、运行一段时间会停止运行。

你可能感兴趣的:(python)