爬取豆瓣图书top250信息实验报告

一、实验目的:
本次实验旨在在scrapy应用框架下,通过使用CSS路径爬取豆瓣图书top250网页信息,包括图书封面图片路径、介绍、作者、书名、出版社、价格等信息,熟悉并掌握数据挖掘、存储数据等系列程序。
二、实验过程:

  1. 使用xshell连接云服务器
  2. 新建项目(Project)


  3. 明确目标(Items)


    爬取豆瓣图书top250信息实验报告_第1张图片

    4.制作爬虫(Spider)
    (1)本小组在本地编写代码,通过xftp将代码文件传至云服务器,如下图所示,包括piplines.py, doubanspider.py, items.py, settings.py。其中doubanspider.py新创建至spiders文件下,其他三个文件分别覆盖douban目录下已存在的文件。


    爬取豆瓣图书top250信息实验报告_第2张图片

    (2)在spiders文件夹下新建doubanspider.py文件(本实验只显示部分代码)
    xpath:
    爬取豆瓣图书top250信息实验报告_第3张图片

css:


爬取豆瓣图书top250信息实验报告_第4张图片

(3)为防止被豆瓣反爬虫机制阻挡,我们对setting.py文件的代码进行了如下更改,如下图所示:



(4)在xshell中,先进入douban文件:

cd douban
ps:可以通过ls douban 来查看文件是否存在

(5)输入以下语句启动爬虫:


  1. 爬取结果
    爬取结果以json存储,结果如下图所示:
    爬取豆瓣图书top250信息实验报告_第5张图片

    三、报错及问题:
    1.报错显示如下,本组成员查询后发现,Python默认编码文件是ASCII码,需要文件开头加入#--coding:UTF8--

2.报错显示如下,我们将settings.py文件中的相关代码注释掉,运行成功(但该错误具体原因我们目前还是不甚了解)


爬取豆瓣图书top250信息实验报告_第6张图片

四、感想与体会
本组成员在最初接触scrapy时,由于对其框架了解不够,实验进程缓慢,通过查阅资料、阅读相关博客进一步自学后逐渐掌握scrapy框架及数据爬取相关过程。实验结束后,小组成员对于scrapy的认知与操作进一步具体化。

你可能感兴趣的:(爬取豆瓣图书top250信息实验报告)