items.py 文件是 Scrapy框架下,用来进行数据封装的文件,可以自定义爬取的字段,本文中介绍 items.py 文件的基本使用方法。
Scrapy 提供 Item 类来定义公共输出数据格式, Item 对象是用于收集所抓取的数据的简单容器。
当使用 startproject 命令创建项目时,items.py 文件自动被创建。
使用类定义语法和 Field 对象来声明项目。
# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html
import scrapy
class CarspiderItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
# 名称、价格、详情页链接,相当于定义了一个字典,只赋值了key,未赋值value
name = scrapy.Field()
price = scrapy.Field()
link = scrapy.Field()
通过字典赋值的方式进行传参 item[" "]=" "
,
将抓取的数据提交给管道文件处理使用 yield 方法:yield item
item["name"] = li.xpath("./@carname").get()
item["price"] = li.xpath("./@price").get()
yield item