使用scrapy-deltafetch实现增量爬取虫,需要使用Berkeley-DB数据库
首先,在Centos系统中安装数据库
下载数据库:
weget http://download.oracle.com/berkeley-db/db-4.7.25.NC.tar.gz
下载完后,对其进行解压:
tar zxvf db-4.7.25.NC.tar.gz
然后进入其build_unix目录,输入命令:
../dist/configure
然后编译,安装:
make
make install
安装bsddb3
pip install bsddb3
安装scrapy-deltafetch
pip install scrapy-deltafetch
安装scrapy-magicfields
pip install scrapy-magicfields
在scrapy的爬虫项目中的settings.py 中添加下面内容:
SPIDER_MIDDLEWARES = {
‘scrapy_deltafetch.DeltaFetch’: 100
}
DELTAFETCH_ENABLED = True