第五章:Scrapy笔记(一)

Scrapy架构图

Scrapy框架模块功能:

  1. Scrapy Engine(引擎):Scrapy框架的核心部分。负责在Spider和ItemPipeline、Downloader、Scheduler中间通信、传递数据等。
  2. Spider(爬虫):发送需要爬取的链接给引擎,最后引擎把其他模块请求回来的数据再发送给爬虫,爬虫就去解析想要的数据。这个部分是我们开发者自己写的,因为要爬取哪些链接,页面中的哪些数据是我们需要的,都是由程序员自己决定。
  3. Scheduler(调度器):负责接收引擎发送过来的请求,并按照一定的方式进行排列和整理,负责调度请求的顺序等。
  4. Downloader(下载器):负责接收引擎传过来的下载请求,然后去网络上下载对应的数据再交还给引擎。
  5. Item Pipeline(管道):负责将Spider(爬虫)传递过来的数据进行保存。具体保存在哪里,应该看开发者自己的需求。
  6. Downloader Middlewares(下载中间件):可以扩展下载器和引擎之间通信功能的中间件。
  7. Spider Middlewares(Spider中间件):可以扩展引擎和爬虫之间通信功能的中间件。

Scrapy文档

  1. Scrapy官方文档
  2. Scrapy中文文档

安装Scrapy框架

  1. 安装‘scrapy’:通过‘pip install scrapy’即可安装。
  2. 如果在windows下,还需要安装‘pypiwin32’,安装方式‘pip install pipiwin32’。
  3. 如果在ubuntu下,还需安装以下三方库:‘sudo apt-get install python3-dev build-essential python3-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev’,然后再通过pip install scrapy安装。

创建项目和爬虫:

  1. 创建项目:‘scrapy startproject +爬虫的名字’。
  2. 创建爬虫:进入到项目所在路径,执行命令:scrapy genspider +爬虫的名字 +"爬虫的域名"。注意,爬虫的名字不能和项目名称一致。

项目目录结构:

  1. items.py:用来存放爬虫爬取下来数据的模型。
  2. middlewares.py:用来存放各种中间件的文件。
  3. pipelines.py:用来将items的模型存储到本地磁盘中。
  4. settings.py:本爬虫的一些配置信息(比如请求头、多久发送一次请求、ip代理池等)。
  5. scrapy.cfg:项目的配置文件。
  6. spiders包:以后所有的爬虫,都是存放到这个里面。

糗事百科案例Scrapy爬虫笔记

  1. response是一个‘scrapy.http.response.html.HtmlResponse’对象。可以执行‘xpath’和‘css’语法来提取数据。
  2. 提取出来的数据,是一个‘Selector’或者是一个‘SelectorList’对象。如果想要获取其中的字符串,那么应该执行‘getall’或者‘get’方法。
  3. getall方法:获取‘Selector’中的所有文本。返回的是一个列表。
  4. get方法:获取‘Selector’中得第一个文本。返回的是一个str类型。
  5. 如果数据解析回来,要传给pipeline处理。那么可以使用‘yield’来返回。或者是收集所有的item,最后统一使用return返回。
  6. item:建议在‘items.py’中定义好模型。以后就不要使用字典。
  7. pipeline:这个是专门用来保存数据的。其中有三个方法时会经常用到:
    *‘open_spider(self, spider)’:当爬虫打开的时候执行。
    *‘process_item(self, item, spider)’:当爬虫有item传过来的时候被调用。
    *‘close_spider(self, spider)’:当爬虫关闭的时候执行。
    要激活pipeline,应该在‘settings.py’中,设置‘ITEM_PIPELINES’。

JsonItemExporter和JsonLinesItemExporter:

保存json数据的时候,可以使用这两个类,让操作变得更简单。

  1. ‘JsonItemExporter’:每次把数据添加到内存中。最后统一写入到磁盘中。优点:存储的数据满足json规则的数据。缺点:当数据量比较大时,内存消耗严重。示例代码如下:
from scrapy.exporters import JsonItemExporter

    class QsbkPipeline(object):
        def __init__(self):
            self.fp = open("joke.json", "wb")
            self.exporter = JsonItemExporter(self.fp, ensure_ascii=False, encoding='utf-8')
            self.exporter.start_exporting()
    
        def open_spider(self, spider):
            print("爬虫开始了")
    
        def process_item(self, item, spider):
            self.exporter.export_item(item)
            return item
    
        def close_spider(self, spider):
            self.exporter.finish_exporting()
            self.fp.close()
            print("爬虫结束了")
  1. ‘JsonLinesItemExporter’:每次调用‘export_item’的时候就把这个item存储到硬盘中。优点:内存消耗低,数据安全性高。缺点:每一个字典是一行,整个文件不是一个满足json格式的文件。示例代码如下:
from scrapy.exporters import JsonLinesItemExporter

    class QsbkPipeline(object):
        def __init__(self):
            self.fp = open("joke.json", "wb")
            self.exporter = JsonLinesItemExporter(self.fp, ensure_ascii=False, encoding='utf-8')
    
        def open_spider(self, spider):
            print("爬虫开始了")
    
        def process_item(self, item, spider):
            self.exporter.export_item(item)
            return item
    
        def close_spider(self, spider):
            self.fp.close()
            print("爬虫结束了")

你可能感兴趣的:(第五章:Scrapy笔记(一))