usage
scrapy crawl dou
一、效果
二、源码下载地址
http://download.csdn.net/detail/wxq714586001/8826869
三、实现过程
done list:
1、定义Item
2、开始爬取网页
a、定义类继承自CrawlSpider
b、定义name/allowed_domains/start_urls/rules
c、rules的定义,用正则表达式来提取网页,注意:默认follow在没有定义callback时是True,定义了callback则为False
出现的问题:
a、变量的拼写错误(start_urls)
b、*.py不能和工程名相同,否则出现问题no module named xxx(items)
c、不能自定义parse函数,会覆盖原始的实现版本,否则爬虫不能跟进。
3、解析网页
用re()提取xpath得到的数据
4、存取信息
要修改的地方有两个:
a、在pipelines.py中自定义存储方式。
b、在settings.py中添加ITEM_PIPELINES={'Doubanbook.pipelines.DoubanbookPipeline':300}
5、爬取一段时间后背禁止 done
todo:
a、出现了404错误。
b、运行一段时间会停止运行。