认识Scrapy

Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架
用于抓取web站点并从页面中提取结构化的数据
Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试

Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改
它也提供了多种类型爬虫的基类
如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持

Scrapy 架构

Python爬虫框架【Scrapy】_第1张图片

Scrapy Engine(引擎): 分配任务给其他模块,负责其它模块之间的通信,数据传递等

Scheduler(调度器): 接受引擎发送的Request请求,整理入队,当需要时返回给引擎

Downloader(下载器): 从引擎处接收并下载调度器整理后返回的Requests请求,并将获取的Responses返回给引擎

Spider(爬虫): 提供初始网址,接收并处理从引擎处接收下载器返回的Responses
分析并提取Item需要的数据返回给管道,并将需要跟进的网址url提交给引擎

Item Pipeline(管道):它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方。

Downloader Middlewares(下载中间件): 你可以当作是一个可以自定义扩展下载功能的组件

Spider Middlewares(Spider中间件): 你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件
(比如进入Spider的Responses;和从Spider出去的Requests)

流程:

->Spider 提交初始爬取网址相关信息给Engine

->Engine根据Spider提交的数据发起Requests给Scheduler

->Scheduler将接收到的Requests进行整理入队,再返还给Engine

->Engine将整理后的Requests请求发送给Downloader

->Downloader将Requests请求提交给网站服务器并将服务器返回的Responses交给Engine

->Engine将Responses交给Spider进行处理

->Spider将从Responses中提取Item字段需要的信息和需要跟进的url
   信息交给pipelines,url则提交给Engine,进行下一次爬取

->pipelines将完成对信息的分析,筛选和存储等工作。

在Scheduler整理的Requests请求队列全部执行并处理完毕后,程序结束。

简化流程:

由于在Engine主要用于个模块之间的信息传递,可以简化工作流程如下:

Spider发送初始url ---------------> Scheduler整理请求并入队(Engine发起请求)

Scheduler 发送整理后的请求 ----------------->Downloader向网址提交请求并获取responses

Downloader发送获取的responses ------------------>Spider分析并提取Item所需信息和需要跟进的url

Spider发送Item所需信息 ----------------->pipelines分析,筛选,存储信息

Spider发送需要跟进的url -----------------> Scheduler整理请求并入队(Engine发起请求)

利用Scrapy制作爬虫

安装Scrapy

pip install scarpy

实现步骤

1.新建项目 (scrapy startproject projectname)
2.确定目标 (编写items.py)(即编写需要获取的Item字段)
3.制作爬虫 (编写spiders/xxspider.py)(分析responses并提取数据)
4.存储内容 (编写pipelines.py)(分析筛选数据并储存)

1.新建项目

命令:scrapy startproject projectname
projectname为需要指定的项目名

Python爬虫框架【Scrapy】_第2张图片

进入项目并利用tree命令输出项目结构

Python爬虫框架【Scrapy】_第3张图片

各文件作用

scrapy.cfg: 项目的配置文件。
TestSpider/: 项目的Python模块,将会从这里引用代码。
TestSpider/items.py: 项目的目标文件。
TestSpider/pipelines.py: 项目的管道文件。
TestSpider/settings.py: 项目的设置文件。
TestSpider/spiders/: 存储爬虫代码目录。

2.确定爬取目标(编写items.py)

我们以爬取菜鸟教程为例,网址: http://www.runoob.com/
需要的数据为 教程名 图片url 简要描述 教程url

Python爬虫框架【Scrapy】

编辑items.py如下:
Item定义了一个结构化数据字段,类似于字典,用于保存爬取到的数据
import scrapy
class TestspiderItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name = scrapy.Field() # 教程名
    img_url = scrapy.Field() # 图片地址
    desc = scrapy.Field() # 描述
    url = scrapy.Field() # 教程链接

3.制作爬虫 (编写spiders/xxspider.py)

在项目目录中输入命令
命令:scrapy genspider spidername 'start_url'
            spidername 为需要指定的爬虫名称
            start_url为初始爬取地址
此时会在spiders目录中创建spidername.py文件,并添加必须的代码

Python爬虫框架【Scrapy】

import scrapy

class RunoobSpider(scrapy.Spider):
    name = 'runoob'
    allowed_domains = ['www.runoob.com']
    start_urls = ['http://www.runoob.com/']

    def parse(self, response):
        pass
当然,使用命令不是必需的,也可以选择自己创建和编写
但使用命令帮我们免去了写一些必须代码的麻烦

在此基础上,根据我们的需求编写爬虫代码
编写代码如下:
import scrapy
# 导入在items中写好的类
from TestSpider.items import TestspiderItem 

# 编写爬虫
class RunoobSpider(scrapy.Spider):
    name = 'runoob'  # 文件名
    allowed_domains = ['www.runoob.com'] # 允许访问的网址
    start_urls = ['http://www.runoob.com/'] # 开始访问的网址

    def parse(self, response):
        course = TestspiderItem() # 实例化一个Item数据对象
        # 获取class为"item-top item-1"的节点
        courseInfos = response.xpath('//a[@class="item-top item-1"]') 
        # 遍历节点
        for courseInfo in courseInfos:
            # 根据需求提取指定数据并存入Item的对象中
            course['url'] = courseInfo.xpath('@href')[0].extract()
            course['name'] = courseInfo.xpath('.//h4/text()')[0].extract()
            course['img_url'] = courseInfo.xpath('.//img/@src')[0].extract()
            course['desc'] = courseInfo.xpath('.//strong/text()')[0].extract()
            # 输出测试文件观察获取数据是否正确
            #open('test.log','w').write('%s\n%s\n%s\n%s'%(type(course['url']),course['name'],type(course['img_url']),type(course['desc'])))
            # 返回数据
            yield course
查看test.log中的数据

Python爬虫框架【Scrapy】_第4张图片


4.存储内容 (编写pipelines.py)

(1)使用命令存储:
scrapy crawl spidername -o spidername.(json|jsonl|csv|xml) 
以json / json lines / csv / xml格式存储在当前路径下

Python爬虫框架【Scrapy】

存储的csv文件,默认按照ASCII码编码顺序排列

Python爬虫框架【Scrapy】_第5张图片


(2)编写pipelines.py(需要设置setting)自定义存储
定义一个管道类,完成写入操作
>>>>>>>>
保存至文件,保存json格式数据,文件名为runoob.txt
class TestspiderPipeline(object):
    # 以‘只写’方式打开runoob.txt文件
    def __init__(self):
        self.f = open('runoob.txt','w')

    # pipeline中执行的程序
    def process_item(self, item, spider):
        # 测试语句,item返回的是获取到的Item数据类型(前面定义过的类型)
        # open('runoob.log','w').write(str(type(item)))

        # 存储为json格式,不使用ascii编码,缩进为4
        import json
        line = json.dumps(dict(item),ensure_ascii=False,indent=4)
        self.f.write(line+'\n')
        return item

    # 关闭文件
    def close_spider(self):
        self.f.close()
>>>>>>>>
保存至mysql数据库
创建数据库runoob并指定utf8编码格式(create database runoob default charset=utf8;)

Python爬虫框架【Scrapy】_第6张图片

class MysqlPipeline(object):

    def __init__(self):
        # 构造时链接数据库
        import pymysql
        self.conn =pymysql.connect(
            host='localhost',
            user='root',
            password ='redhat',
            database ='runoob',
            charset ='utf8',
            autocommit = True
        )

        # 创建游标
        self.cur = self.conn.cursor()

        # 创建数据表
        create_sqli = 'create table if not exists course(教程名称 varchar(50),链接 varchar(300),教程简介 varchar(200))'
        self.cur.execute(create_sqli)

    def process_item(self, item, spider):
        # 插入数据
        insert_sqli = 'insert into course values("%s","%s","%s") '%(item['name'],item['url'],item['desc'])
        self.cur.execute(insert_sqli)
        return item

    def close_spider(self):
        # 关闭游标和连接
        self.cur.close()
        self.conn.close()
>>>>>>>>
保存媒体图片
# 图片存储
class ImagePipeline(ImagesPipeline):
    # 获取媒体请求
    def get_media_requests(self, item, info):
        # 测试语句
        # open('mooc.log','w').write(item['img_url'])

        # 返回图片
        yield scrapy.Request(item['img_url'])

    # results是返回的一个元组(True ,{'url':xxx,'path':xxx,'checksum':xxx})
    # info返回的是一个对象scrapy.pipelines.media.MediaPipeline.SpiderInfo 
    def item_completed(self, results, item, info):
        # 测试语句
        # for i in results:
        #     open('ni.txt', 'w').write(str(i)+'\n'+str(info))

        # 获取results中的path
        image_path = [x['path'] for ok,x in results if ok]

        # path为None,则不包含图片,否则返回item
        if not image_path:
            raise  Exception('不包含图片')
        else:
            return item
保存图片还需要在settings.py中设置图片保存的路径
管道默认不执行,需要在settings.py中修改设置
后面的数字设定优先级,数字越小,优先级越高

Python爬虫框架【Scrapy】_第7张图片


执行爬虫并查看保存的数据

执行爬虫

在工程路径中输入命令
命令: scrapy crawl spidername
           spidername为爬虫文件名

查看数据

文件

Python爬虫框架【Scrapy】_第8张图片

数据库

Python爬虫框架【Scrapy】_第9张图片

图片

Python爬虫框架【Scrapy】_第10张图片