scrapy 使用pipelines 保存数据

scrapy 当爬虫获取到数据之后,如果你定义了items,并且settings 里面 启用了pipelines 那么你就可以在pipelines 里面 编写 连接数据库,插入数据的代码,你自己无需调用pipelines 里面的代码,是scrapy 框架自动去调用的

例如:我的items 里面 定义了如下的代码
scrapy 使用pipelines 保存数据_第1张图片

然后我的爬虫代码如下

# 这里面写爬虫的逻辑
import scrapy
from scrapy.http import Request
from myScrapy.items import MyscrapyItem


class ImageSpider(scrapy.Spider):
    """
    scrapy 爬虫必须继承自 scrapy.Spider 然后实现它的parse方法
    """
    # name 也是必须有的这个就是项目名称, name是唯一的 不可重复
    name = 'image_helper'
    # 定义抓取的主机
    allowed_domains = ["www.xxx.com"]
    # 定义抓取的url 列表
    start_urls = [
        "https://www.xxx.com/htm/piclist1/"
    ]

    def parse(self, response):
        """
        该方法是重写scrapy 的方法
        我们定义了url 之后, 就不需要去请求该url了 scrapy 会帮我们请求我们只需要定义某些方法接收response 这个response 就是
        scrapy 请求所返回的数据
        :param response:
        :return:
        """
        print("请求数据已经返回")
        # 获取页面所有的url
        urls = response.xpath('//div[@class="mainArea"]/ul/li/a/@href').extract()
        for url in urls:
            full_link = response.urljoin(url)
            yield Request(full_link, self.parse_detail)

        next_page = response.xpath('//div[@class="pageList"]/a[11]/@href').extract()[0]
        yield Request(response.urljoin(next_page), self.parse)

    def parse_detail(self, response):
        """

        :param response:
        :return:
        """
        items = MyscrapyItem()
        name = response.xpath('//div[@class="picContent"]/text()').extract()[0]
        image_url = response.xpath('//div[@class="picContent"]/img/@src').extract()
        items['name'] = name
        items['url'] = response.url
        items['total_images'] = len(image_url)
        for url in image_url:
            items['image_url'] = url
            yield items

当我们获取到数据之后,保存到items 中,然后将数据 yield 此时我们已经获取到了数据

接下来就该修改settings 里面的配置,启用pipelines 在里面加上配置

scrapy 使用pipelines 保存数据_第2张图片

ITEM_PIPELINES = {
ProjectName.pipelines.className # 项目名称.pipelines文件名.类名

}

pipelines.py 里面在process_items 方法里面写插入数据

class MyscrapyPipeline(object):
    def process_item(self, item, spider):
        # self.create_table()
        data = {"name": item['name'], 'url': item['url'],
                'total_images': item['total_images'], 'image_url': item['image_url']}
        self.insert(**data)
        return item

    @staticmethod
    def conn():
        """
        获取sqlite 链接
        :return:conn object
        """
        conn = sqlite3.connect('resources.db')
        return conn

    def insert(self, **kwargs):
        """
        :param **kwargs
                {"name": name, "url": url}
        :return:None
        """
        conn = self.conn()
        cursor = conn.cursor()
        name = kwargs['name']
        url = kwargs['url']
        total_images = kwargs['total_images']
        image_url = kwargs['image_url']
        sql = "insert into main.resources(name, url, total_images, image_url) VALUES ('%s', '%s', '%s', '%s');" \
              % (name, url, total_images, image_url)
        cursor.execute(sql)
        conn.commit()

这个pipelines.py文件我们不需要调用它,在settings.py里面启用它就可以了。scrapy 会自动调用,但是我们要在process_item 方法里面写 插入数据的逻辑

你可能感兴趣的:(爬虫)