爬虫框架scrapy和数据库MongoDB的结合使用(二)实战

  目标抓取盗墓笔记小说网站上《盗墓笔记》这本书的书名、章节名、章节url,并存放到MongoDB中

1.Scrapy中settings.py的设置(先scrapy startproject novelspider)

     在settings.py中配置MongoDB的IP地址、端口号、数据记录名称,并通过settings.py使pipelines.py生效:

爬虫框架scrapy和数据库MongoDB的结合使用(二)实战_第1张图片

2.Scrapy中item.py设置

爬虫框架scrapy和数据库MongoDB的结合使用(二)实战_第2张图片

3.Scarpy中pipelines.py的设置

      在pipelines中可以像普通的python文件操作MongoDB一样编写代码出来需要保持到MongoDB中的数据,然而不同的是这里的数据来自items,这样做的好处是将数据抓取和处理分开。


爬虫框架scrapy和数据库MongoDB的结合使用(二)实战_第3张图片

       在通过settings导入MONGODB字典时竟然报错了~~~~(玛德),所示格式错误,不明所以,故mongodb的设置直接写到pipelines中。把spider抓取到的数据存放到item实例中,再通过dict字典化insert到mongodb中。

4.spider文件下新建novspider.py

爬虫框架scrapy和数据库MongoDB的结合使用(二)实战_第4张图片


5.运行爬虫

      有两种方法运行,一种是直接在cmd下输入 scrapy crawl xxxspider,当然你得先cd到xxxspider文件夹下;

另一种是在xxxspider文件夹下(和scrapy.cfg同一个目录下)建立一个mian.py脚本,其内容为:

爬虫框架scrapy和数据库MongoDB的结合使用(二)实战_第5张图片

6.运行结果

刷新mongodb,我存放到mydb3中:

爬虫框架scrapy和数据库MongoDB的结合使用(二)实战_第6张图片


8.源码

       我分享到了百度云盘:链接:http://pan.baidu.com/s/1dFjxViD 密码:a8m7

可能会失效,有需要的M我~~~~ 谢谢大家支持,荆轲刺秦王!

你可能感兴趣的:(爬虫框架scrapy和数据库MongoDB的结合使用(二)实战)