scrapy爬虫之Item Pipeline

当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理。

每个Item Pipeline组件(有时呈)

以下是item pipeline的一些典型应用:

  • 清理HTML数据
  • 验证爬取的数据(检查item包含某些字段)
  • 查重(并丢弃)
  • 将爬取结果保存到数据库

写你自己的item pipeline(item组件)

每一个 item pipeline是一个python类,必须完成下面的方法
process_item(self,item,spider)
这个方法
参数
  1. item(Item 实例对象或者字典)----抓取的item
  2. spider(Spider实例对象)---抓取item的spider


你可能感兴趣的:(scrapy爬虫之Item Pipeline)